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Har EAE FRATE A SAR, FR Python 语言 经 过 一 段 时 间 的 发 展 也 已 逐 
渐 成 为 主流 的 编程 语言 之 一 。 本 书 结合 了 机 器 学 习 和 Python 语言 两 个 热门 的 领域 ,通过 多 
于 理解 的 项 目 详细 讲述 了 如 何 构建 真实 的 机 峰 学 习 应 用 程序 。 

全 书 共有 1038. 58 1 章 讲解 了 Python 机 器 学 习 的 生态 系统 ， 剩 余 ENAIRE 
机 禹 学 习 相 天 的 算法 ， 包 括 聚 类 算法 、 推 荐 引 敬 每， 主要 包括 机 右 学 习 在 公 上 蜗 、 机 票 、IPO 
市 场 、 新 闻 源 、 内 容 推 广 、 股 票 市 场 、 图 像 、 聊 天 机 器 人 和 推荐 引擎 等 方面 的 应 用 。 

本 书 适 合 Python 程序 员 、 数 据 分 析 人 员 、 对 算法 感 兴趣 的 读者 、 机 器 学 习 领 域 的 从 业 
人 员 及 科研 人 员 阅 读 。 


作者 人 简介 


Alexander T. Combs 是 一 位 经 验 丰 是 的 数据 科学 家 、 宽 上 略 师 和 开发 人 员 。 他 有 人 金融 数据 
抽取 、 目 然 语 言 处 理 和 生成 ， 以 及 定量 和 统计 建 模 的 背景 。 他 目前 古 纽约 沉浸 式 数 据 科学 
项 目的 一 名 全 职 资 深 讲师 。 





审阅 者 简介 


KushalKhandelwal 是 一 位 数据 科学 家 和 全 栈 开 及 人 员 。 他 的 兴趣 包括 构建 可 扩展 的 机 
髓 学 习 和 图 像 处理 的 软件 应 用 。 他 擅长 Python 编码 ， 并 对 各 种 开源 项 目 做 出 了 积极 的 页 献 。 
他 目前 担任 Truce.in 的 技术 主管 ， 这 是 一 家 以 农民 为 中 心 的 创业 公司 ，Kushal 致力 于 创建 
可 扩展 的 Web 应 用 程序 来 帮助 农民 。 
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黄牛 博士 , 现任 IBM 研究 院 资 深 科 学 家 , 毕业 于 上 海 交 通 大 学 计算 机 科学 与 工程 专业 ， 
师 从 俞 勇 教授 。 微 软 学 者 、IBM ExtremeBlue 天 才 计 划 成 员 。 长 期 专注 于 大 数据 相关 的 搜 
索 、 推 荐 、 广 告 以 及 用 户 精 准 化 领域 。 壮 在 微软 亚洲 研究 院 、eBay HP Ed. ARES 1 95 GI 
BUR 1 号 店 ) 和 大 尊 发 飞 牛 网 担任 要 职 ， 市 队 完 成 了 厂 干 公司 级 的 战略 项 目 。 同 时 友 表 了 
20 多 篇 国际 论文 ， 并 拥有 10 多 项 国际 专利 ,《 计 算 机 工程 》 特 邀 审 稳 专 家 ,， 《Elasticsearch 
实战 》 中 文 版 的 译 者 ，2016 年 出 版 的 《大 数据 架构 商业 之 路 》 一 书 销 量 和 口碑 双 局 ， 续 作 
《大 数据 染 构 和 算法 实现 之 路 》 将 于 2017 年 中 出 版 。2015 年 ， 因 对 业界 做 出 早 越 页 献 ， 获 
得 美国 政府 癸 友 的 “美国 杰出 人 才 ” 称 号。 








译 者 序 


谈 到 为 什么 要 翻译 这 本 书 ， 还 是 一 段 机 缘 巧 合 。 那 是 2015 年 的 下 半年 ， 当 时 我 正在 氛 
写 自 己 的 原创 书籍 《大 数据 架构 商业 之 路 : 从 业务 需求 到 技术 方案 》。 在 那 本 书 中 ， 我 希望 
结合 一 个 创业 的 故事 ， 展 示 各 个 阶段 可 能 过 到 的 大 数据 课题 、 业 务 震 求 ， 以 及 相对 应 的 技 
术 方 案 ， 其 至 古 实践 解析 。 其 中 ， 最 挑战 的 部 分 更 过 于 案例 的 分 析 到 技术 方案 ， 再 到 框 染 
编码 的 逐步 展开 。 因 为 之 前 对 于 这 种 写作 模式 没有 相关 的 经 验 ， 让 人 很 是 吉 恼 。 我 也 搜寻 
了 市 面 上 相关 的 中 天 文书 籍 ， 可 惜 并 未 友 现 特别 好 的 范例 作为 参考 。 

一 次 偶然 的 机 会 ， 我 在 Amazon.com 上 发 现 了 Alexander T. Combs HJ. (Python Machine 
Learning Blueprints》。 当 时 此 书 疝 未 出 版 ,还 是 试 恋 本 。 在 阅读 样 章 之 后 我 故 现 这 种 写作 模 
式 就 是 我 想 要 的 ， 没 有 太 多 的 理论 和 说 教 ， 而 是 结合 我 们 日 章 生 活 都 会 经 历 的 方方面面 ， 
包括 房产 、 金 融 、 旅 诉 和 电子 商务 等 ， 提 供 了 可 以 直接 上 手 的 教学 内 容 ， 让 读者 可 以 壬 临 
其 境 ， 乐 在 其 中 ， 轻 松 了 解 机 融 学 习 的 实用 知识 。 这 正 是 我 想 要 学 习 的 风格 ! 于 是 我 采纳 
了 这 种 模式 ， 并 结合 目 己 的 项 目 经 验 ， 一 口气 完成 了 《大 数据 染 构 商业 之 路 : 从 业务 需求 
到 技术 方案 》 一 书 。 上 市 之 后 ， 读 者 对 这 种 理论 和 案例 相 结 合 的 方式 很 是 赞许 。 所 以 ， 我 
对 《Python Machine Learning Blueprints》 一 书 心 存 感激 ， 对 它 何 时 上 市 也 很 是 关注 。 

终于 ，2016 年 的 7 HIR, VA BISESCRROGESN AAT. dB SIE TA: 
初试 谈 的 感觉 一 样 ， 这 是 一 本 很 有 创意 的 书 ， 而 且 Python 和 机 器 学 习 都 是 最 近 几 年 的 技术 
热点 ， 如 果 能 将 这 么 棒 的 内 容 介绍 给 广大 国内 的 读者 ， 那 是 多 么 令 人 激动 的 事情 ! 于 是 ， 
我 抱 独 试 试看 的 心态 ， 联 系 了 人 民 邮 电 出 版 社 的 编辑 陈 囊 康 老 师 。 很 芋 运 ， 当 时 此 书 还 没 
有 译 者 ， 陈 老师 审阅 我 的 试 译 稳 之 后 也 表示 满意 ， 于 是 我 很 采 羡 地 成 为 了 此 书 的 译 痢 。 

不 过 在 翻译 的 过 程 中 ， 我 也 发 现 了 不 少 细 市 上 的 疑问 ， 于 是 我 主动 联系 了 原 书 的 作者 
Alexander， 他 总 是 非 党 仔细 地 解答 这 些 问题 ， 使 得 我 信心 大 增 ， 可 以 确保 译文 尽 可 能 地 贴 
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近 原 文 。 而 编辑 陈 老师 也 对 此 举 表示 了 充分 的 肯定 。 在 此 ， 我 要 对 Alexander 和 陈 老师 的 
帮助 表示 吏 心 的 感谢 。 当 然 ， 我 也 要 感谢 父母 和 妻 儿 有 的 文 持 ， 为 了 此 书 ， 我 陪伴 你 们 的 时 
间 更 少 了 ， 而 你 们 丝 坚 没有 扰 言 ， 让 我 可 以 安心 地 完成 每 次 的 写作 。 

在 翻 诺 此 书 的 光 月 中 ，Python、 机 大 学 习 及 其 应 用 在 国内 外 都 获得 了 空前 的 关注， 相关 
的 社区 也 保持 了 非常 好 的 活跃 度 ， 相 信 这 个 技术 方 癌 在 将 来 还 有 很 大 的 空间 。 和 硕 望 本 书 能 帮 
助 到 每 一 位 热爱 Python 和 机 复学 习 的 朋友 , 为 中 国 的 人 工 智 能 事业 尽 一 份 绢 泣 乙 力 。 如 条 您 
对 本 书 中 的 拉 术 细节 感 兴 趣 ， 可 以 通过 如 下 渠道 联系 我 ， 很 期 竺 和 大 家 的 互动 和 交流 。 

QQ 30038279 

微 信 18616692855 

邮箱 s_huang790228@hotmail.com 

LinkedIn https://cn.linkedin.com/in/shuang790228 
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机 器 学 习 正在 迅速 成 为 数据 驱动 型 世界 的 一 个 必 备 模块 。 许 多 不 同 的 领域 如 机 器 人 、 
医学 、 零 售 和 出 版 等 ， 都 需要 依赖 这 门 技术 。 在 这 本 书 中 ， 你 将 学 习 如 何 一 步 步 构建 真实 
的 机 器 学 习 应 用 程序 。 

通过 易于 理解 的 项 目 ， 你 将 学 习 如 何 处 理 各 种 类 型 的 数据 ， 如 何以 及 何 时 应 用 不 同 的 
机 器 学 习 技 术 ， 包 括 监督 学 习 和 无 监督 学 习 。 

本 书 中 的 每 个 项 目 都 同时 提供 了 教学 和 实践 。 例 如 ， 你 将 学 习 如 何 使 用 聚 类 技术 来 发 
现 低 价 的 机 票 ， 以 及 如 何 使 用 线性 回归 找到 一 间 便宜 的 公寓 。 本 书 以 通俗 易 慌 、 简 洁 明了 
的 方式 ， 教 你 如 何 使 用 机 器 学 习 来 收集 、 分 析 并 操作 大 量 的 数据 。 


本 书 涵 孟 的 内 容 


第 1 €, Python 机 器 学 习 的 生态 系统 ,深入 Python, 它 有 一 个 深度 活跃 的 开发 者 社区 ， 
而 且 许 多 开发 者 来 自 科 学 社区 。 这 为 Python 提供 了 丰富 的 科学 计算 库 。 在 本 章 中 ， 我们 将 
讨论 这 些 关 键 库 的 特性 以 及 如 何 准备 你 的 环境 ， 以 最 好 地 利用 它们 。 

第 2 章 ， 构 建 应 用 程序 ， 发 现 低 价 的 公 敲 ， 指 导 我 们 构建 第 一 个 机 器 学 习 应 用 程序 ， 
我 们 从 一 个 最 小 但 实际 的 例子 开始 : 建设 应 用 程序 来 识别 低 价 的 公寓 。 到 本 章 结束 ， 我 们 
将 创建 一 个 应 用 程序 ， 使 得 寻找 合适 的 公 宛 变 得 更 容易 点 。 

第 3 草 ， 构 建 应 用 程序 ， 有 发 现 低 价 的 机 票 ， 汗 示 了 如 何 构建 应 用 程序 来 不 断 地 监测 票 
价 。 一旦 出 现 异 第 价格 ， 应 用 程序 将 提醒 我 们 ， 可 以 快速 采取 行动 。 

7B 4m, 使 用 人 逻辑 回归 预测 IPO 市 场 ， 展 示 了 我 们 如 何 使 用 机 禹 学 习 决 定 哪 些 PO 值 
得 仔细 研究 ， 而 哪些 可 以 直接 跳 过 。 
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第 5 章 ， 创 建 目 定义 的 新 闻 源 ， 介 绍 如 何 构建 一 个 系统 ， 它 会 了 解 你 对 于 新 闻 的 品味 ， 
而 且 每 天 都 可 以 为 你 提供 个 性 化 的 新 闻 资 讯 。 

第 6 革 ， 预 测 你 的 内 容 是 否 会 三 为 流传 ,检查 一 些 被 大 家 三 沁 分 至 的 内 容 ， 并 试图 找 
到 这 种 内 容 相 对 于 其 他 人 们 不 愿 分 圣 的 内 容 有 哪些 特 后 。 

第 7 草 ， 使 用 机 去 学 习 预 测 股票 市 场 ， 讨 论 如 何 构建 和 测试 交易 策略 。 当 你 试图 设计 
属于 目 己 的 系统 时 ， 有 无 数 的 陷阱 要 避免 ， 这 是 一 个 几乎 不 可 能 完成 的 任务 。 但 是 ， 这 个 
过 程 有 很 多 的 乐趣 ， 而 且 有 的 时 候 ， 它 甚至 可 以 帮 你 鳃 利 。 

第 8 革 ， 建 立 图 像 相 似 度 的 引擎 ， 和 帮助 你 构建 融 级 的 、 基 于 图 像 的 深度 学 习 应 用 。 我 
们 还 将 涵 兰 深度 学 习 的 算法 来 了 解 为 什么 它们 是 如 此 的 重要 ， 以 及 为 什么 它们 成 为 了 最近 
研究 的 热点。 

第 9 昔 ， 打 造 聊天 机 需 人 ， 满 示 如 何 从 头 构建 一 个 聊天 机 需 人 。 该 完 之 后 ， 你 将 了 解 
更 多 关于 该 领域 的 历史 及 其 未 来 前 景 。 

第 10 草 ， 构 建 推荐 引擎 ， 探 讨 不 同 闫 型 的 推荐 系统 。 我 们 将 看 到 它们 在 商业 中 是 如 何 
实现 和 运作 的 。 我 们 还 将 实现 目 己 的 推荐 引擎 来 得 找 GitHub 资料 库 。 


阅读 本 书 需要 准备 什么 












































你 需要 的 是 Python 3.x 和 建立 真实 机 需 学 习 项 目的 淘 望 。 你 可 以 参考 随 本 书 的 详细 代 
人 码 列表 。 


本 书 的 读者 


本 书 的 目标 读者 包括 了 解数 据 科 学 的 Python 程序 员 、 数 据 科 学 家 、 架 构 师 ， 以 及 想 要 
构建 完整 的 、 基 于 Python 的 机 器 学 习 系 统 的 人 员 。 


约定 











在 这 本 书 中 ， 你 会 友 现 许多 文本 样式 ， 以 区 分 不 同 种 类 的 信息 。 这 里 是 攻 些 样式 的 例 
子 和 它们 的 含义 。 

文本 中 的 代码 、 数 据 库 表 名 称 、 文 件 夹 名 称 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、 虚 构 的 URL. 
用 户 输入 和 Twitter 句柄 如 下 所 示 :“ 这 点 可 以 通过 在 我 们 的 数据 框 上 调用 .corr0 来 实现 。” 











代码 块 的 格式 设置 如 下 。 


«category» 

Xpattern»I LIKE TURTLES«/pattern» 

«template»I feel like this whole «set name-"topic"»turle«/set» 
thing could be a problem. What do you like about them?«/template» 
«/category» 


任何 命令 行 输入 或 输出 的 写法 如 下 。 


sp = pd.read csv (r'/Users/alexcombs/Downloads/spy.csv') 
sp.sort values('Date', inplace-True) 


新 术语 和 重要 词语 以 粗 体 显 示 。 
读者 肥 僻 


我 们 非常 欢迎 读者 的 反馈 。 让 我 们 知道 你 对 这 本 书 有 什么 想法 你 喜欢 哪些 内 容 或 
不 喜欢 哪些 内 容 。 读 者 的 反馈 对 我 们 而 言 很 重要 ， 因 为 它 有 助 于 我 们 打造 各 种 主题 ， 而 且 





对 于 一 般 的 反馈 ， 通 过 电子 邮件 feedback@packtpub.com 发 送 ， 并 在 消息 的 主题 中 提 
及 书 的 标题 。 
如 果 你 擅长 茶 个 专业 的 主题 ， 并 且 你 有 兴趣 所 写 或 合 音 一 本 书 ， 请 参 疯 我 们 的 作者 指 


南 www.packtpub.comy/authors。 
$e 


现在 你 是 一 名 自 坚 的 Packt 书籍 所 有 者 ， 我 们 将 做 一 些 事情 来 帮助 你 从 这 次 购买 中 获 











下 载 示例 代码 


在 http://www.packtpub.com， 你 可 以 通过 目 己 的 账户 来 下 载 此 书 的 示例 代码 文件 。 如 
果 你 在 其 他 地 方 购买 此 书 ， 你 可 以 访问 http:Wwww.packtpub.com/support 并 注册 ， 我 们 将 文 
件 直 接 发 送 给 你 。 
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你 可 以 通过 以 下 步骤 下 载 代码 文件 。 

1. 使 用 你 的 电子 邮件 地 址 和 密码 登录 或 注册 我 们 的 网 站 。 
.将 光标 指针 巧 停 在 顶部 的 SUPPORT 选项 卡 上 。 

， 单 击 Code Downloads & Errata. 

.在 搜索 框 Search 中 输入 书籍 的 名 称 。 

.选择 你 要 下 载 代码 文件 的 图 书 。 

. 在 下 拉 沫 单 中 ， 选 择 你 在 哪里 购买 的 此 书 。 

， 单 击 Code Download. 

在 Packt Publishing 的 网 站 上 ， 你 也 可 以 单 击 该 书 主页 上 的 Code Files 按钮 来 下 载 代码 
文件 。 可 以 在 搜索 框 中 输入 图 书 的 名 称 来 访问 其 主页 。 请 注意 ， 你 需要 登录 到 你 的 Packt 
账户 。 

一 旦 文件 下 载 完 人 毕 ， 请 确保 使 用 以 下 软件 的 最 新 厂 本 来 解压 缩 或 提取 文件 夹 。 

eWindows 版 WinRAR /7-Zip。 





~ QV t A WW hb 

















eMac 版 Zipeg / iZip / UnRarX. 

eLinux 版 7-Zip / PeaZip。 

2 P E d S a un jT S t GitHub E 
https://github.com/packtpublishing/pythonmachinelearningblueprints. RATELE E = BJoK B H 
他 书籍 的 代码 包 和 视频 ， 位 于 https://github.com/PacktPublishing/。 去 看 一 下 吧 ! 


勘误 








虽然 我 们 已 经 采取 一 切 谍 慎 的 措施 ， 以 确保 内 容 的 准确 性 ， 但 错误 在 所 难免 。 如 果 你 
在 我 们 的 书 中 友 现 一 个 错误 一 一 也 许 在 正文 中 , 也 许 在 代码 中 一 一 请 同 我 们 报告 , 我 们 将 非 
第 感 浅 。 这 样 ， 你 可 以 让 其 他 读者 避免 挫折 ， 并 帮助 我 们 改进 本 书 的 后 续 版 本 。 如 琳 你 发 
现任 何 错误 ， 请 访问 这 个 链接 进行 报告 : http://www.packtpub.com/submit-errata， 选 择 你 的 
P, ih Errata Submission Form 链接 ， 然 后 输入 错误 有 的 评 细 信息 。 一 旦 此 勘误 通过 验证 ， 
你 的 提交 将 被 接受 ， 勘 误 信 息 将 被 上 传 到 我 们 的 网 站 或 添加 到 任何 该 主题 Errata. 部 分 现 有 
的 勘误 表 。 

要 查看 以 前 提交 的 勘误 , 请 访问 https://www.packtpub.com/books/content/support 并 在 搜 
过 字段 中 输入 书籍 的 名 称 。 所 需 信 息 将 出 现在 Errata 部 分 中 。 
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第 1 章 
Python 机 怖 学 习 的 生态 系统 


机 器 学 习 正 在 迅速 改变 我 们 的 世界 。 作 为 人 工 知 能 的 核心 ， 我 们 几乎 每 天 都 会 谈 到 
机 器 学 习 如 何 改 变 日 单 的 生活 。 一 些 人 认为 它 会 带领 我 们 进入 一 个 风格 奇异 的 高 科技 马 
托 邦 ;而 另 一 些 人 认为 我 们 正 迈 加 一 个 高 科技 天 局 时 代 ， 将 与 历 取 我 们 工作 机 会 的 机 需 
人 和 无 人 机 敢死队 进行 持久 的 战争 。 不 过 ， 虽 然 权 威 专家 们 可 能 会 喜欢 讨论 这 些 仿 张 的 
未 来 ， 但 更 为 平凡 的 现实 是 ， 机 器 学 习 正 在 快速 成 为 我 们 日 党 生活 的 固定 装备 。 随 着 我 
们 微小 但 循序 渐进 地 改进 目 身 与 计算 机 以 及 周围 世界 之 间 的 互动 ， 机 喜 学 习 正 在 悄悄 地 
改善 独 我 们 的 生活 。 

如 果 你 在 Amazon.com 这 样 的 在 线 零 售 商 店 购物 ， 使 用 Spotify 或 Netflix 这 样 的 流 媒 
体 音 乐 或 电影 服务 ， 甚 至 只 是 执行 一 次 Google 搜索 ， 你 就 已 经 触 碰 到 了 机 器 学 习 的 应 用 。 
使 用 这 些 服务 的 用 户 会 产生 数据 ， 这 些 数据 会 被 收集 、 汇 总 并 送 入 模型 ， 而 模型 最 终 会 为 
每 个 用 户 创 建 个 性 化 的 体验 来 完善 服务 。 

想 要 深入 到 机 器 学 习 应 用 的 开发 中 ， 现 在 就 是 一 个 理想 的 时 机 。 你 会 发 现 ，Python 是 
开发 这 些 应 用 的 理想 选择 。Python 拥有 一 个 深度 的 、 活 跃 的 开发 者 社区 ， 许 多 开发 者 也 来 
目 科 学 家 的 社区 。 这 为 Python 提供 了 一 组 丰富 的 科学 计算 库 。 在 本 书 中 ， 我 们 将 讨论 并 使 
用 这 些 来 日 Python 科学 栈 的 库 。 

在 接 下 来 的 重 节 中 ， 我 们 将 一 步 步 学 习 如 何 建立 各 种 不 同 的 机 器 学 习 应 用 。 但 是 ， 在 
真正 开始 之 前 ， 我 们 将 使 用 本 章 璋 下 的 篇 幅 讨 论 这 些 关 键 库 的 特性 ， 以 及 如 何 准 备 能 充分 
利用 它们 的 环境 。 

我 们 将 在 本 章 中 介绍 以 下 主题 。 

e 数 据 科 学 /机 占 学 习 的 工作 流程 。 
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e TEW SETTE PE. 
e。 设 置 你 的 环境 。 


1.1 数据 科学 /机 强 学 习 的 工作 流程 


打造 机 器 学 习 的 应 用 程序 , 与 标准 的 工程 范例 在 许多 方面 都 是 类 
似 的 ， 不 过 有 一 个 非常 重要 的 方法 有 所 不 同 : 需要 将 数据 作为 原材料 
来 处 理 。 数 据 项 目 成 功 与 个 ， 很 大 程度 上 依赖 于 你 所 获 数 据 的 质量 ， 
以 及 它 是 如 何 被 处 理 的 。 由 于 数据 的 使 用 属于 数据 科学 的 领域 ,理解 
数据 科学 的 工作 流程 对 于 我 们 也 有 所 帮助 : 整个 过 程 要 按照 图 1-1 中 
的 顺序 ， 完 成 六 个 步骤 : 获取 ， 检 查 和 探索 ， 清 理 和 准备 ， 建 模 ， 评 
佑 和 最 后 的 部 普 。 


在 这 个 过 程 中 ,还 经 常 需 要 统 回 到 之 前 的 步 又 , 例如 检 俘 和 准备 
数据 ， 或 者 是 评估 和 建 模 ， 但 图 1-1 所 示 的 内 容 可 以 描述 该 过 程 较 高 
层次 的 抽象。 

现在 让 我 们 详细 讨论 每 一 个 步骤 。 

1.1.1 获取 


机 釉 学 习 应 用 中 的 数据 ， 可 以 来 和 目 不同 的 数据 产 ， 它 可 能 是 通过 电子 邮件 及 送 的 CSV 
文件 ， 也 可 能 是 从 服务 器 中 拉 取 出 来 的 日 志 ， 或 者 它 可 能 需要 构建 目 己 的 Web 爬虫 。 数 据 
也 可 能 存在 人 不同 的 格式 。 在 大 多 数 情况 下 ， 它 是 基于 文本 的 数据 ， 但 稍 后 将 看 到 ， 构 建 处 
理 图 像 甚至 视频 文件 的 机 右 学 习 应 用 ， 也 是 很 容易 的 。 不 泄 是 什么 格式 ， 一 旦 锁定 了 作 种 
数据 ， 那 么 了 解 该 数据 中 有 什么 以 及 没有 什么 ， 束 变 得 非 第 重要 了 。 


1.1.2 FS EE RIA 


一 旦 获得 了 数据 ， 下 一 步 殉 是 检查 和 探索 它们 。 在 这 个 阶段 中 ， 主 要 的 目标 是 合理 
地 检查 数据 ， 而 实现 这 一 点 的 最 好 办 法 是 发 现 不 可 能 或 几乎 不 可 能 的 事情 。 举 个 例子 ， 
如 条 数据 具有 唯一 的 标识 符 ， 检 查 是 售 真 的 只 有 一 个 ， 如 果 数 据 是 基于 价格 的 ， 检 查 是 
PANEM; 无论 数 据 是 何 种 类 型 ， 检 查 最 极端 的 情况 。 它 们 是 人 否 有 意义 ? 一 个 民 好 的 
实践 是 在 数据 上 运行 一 些 简 单 的 统计 测试 ， 并 将 数据 可 视 化 。 此 外 ， 可 能 还 有 一 些 数据 
是 缺失 的 或 不 完整 的 。 在 本 阶段 注音 到 这 些 是 很 关键 的 ， 因 为 十 要 在 稍 后 的 清洗 和 准备 
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阶段 中 处 理 它 。 只 有 进入 模型 的 数据 质量 好 了 ， 模 型 的 质量 才能 有 保障 ， 所 以 将 这 一 步 
做 对 是 非常 关键 的 。 


1.1.3 清理 和 准备 


当 所 有 的 数据 准备 就 红 ， 下 一 步 是 将 它 转化 为 适合 于 模型 使 用 的 格式 。 这 个 阶段 包括 
石 二 过程， 例如 过 小 、 聚 集 、 输 入 和 转化 。 所 二 的 操作 类 型 将 很 大 程度 上 取决 于 数据 的 类 
型 ， 以 及 所 使 用 的 库 和 算法 的 类 型 。 例 如 ， 对 于 基于 自然 语言 的 文本 ， 其 所 需 的 转换 和 时 
间 序 列 数据 所 需 的 转换 是 非常 不 同 的 。 全 书 中 ， 我 们 将 会 看 到 一 些 转换 的 的 例子 。 


1.1.4 建 模 


一 旦 数据 的 准备 完成 后 ， 下 一 阶段 束 是 建 柑 了 。 在 这 个 阶段 中 ， 我 们 将 选择 适当 的 算 
法 ， 并 在 数据 上 训练 出 一 个 使 型 。 在 这 个 阶段 ， 有 许多 最 佳 实 践 可 以 遵循 ， 我 们 将 详细 讨 
论 它们 ， 但 是 基本 的 步骤 包括 将 数据 分 割 为 训练 、 测 试 和 验证 的 集合 。 这 种 数据 的 分 割 可 
能 看 上 去 不 合 逻 辑 一 无 其 是 在 更 多 的 数据 通 币 会 产生 更 好 的 模型 这 种 情况 下 一 一 但 正如 
我 们 将 看 到 的 ， 这 样 做 可 以 让 我 们 获得 更 好 的 反馈 ， 理 解 该 模型 在 现实 世界 中 会 表现 得 如 
何 ， 并 避免 建 模 的 大 忌 : 过 拟 合 。 


1.1.5 评估 


一 旦 模型 构建 完成 并 开始 进行 预测 ， 下 一 步 是 了 解 模 型 做 得 有 多 好 。 这 是 评估 阶段 试 
图 回答 的 问题 。 有 很 多 的 方式 来 衡量 模型 的 表现 ， 同 样 ， 这 在 很 大 程度 上 依赖 于 所 用 数据 
和 模型 的 类 型 ， 不 过 就 整体 而 言 ， 我 们 试图 回 众 这 样 的 问题 ， 模 型 的 预测 和 实际 值 到 确 有 
E. AHE ERSA WAKA, MURTRA KILER, AK Fl 得 分 ， 
但 最 终 ， 它 们 还 是 实际 值 与 预 信 值 之 间 的 距离 量度 。 


1.1.6 部 署 
一 旦 模型 的 表现 令 人 满意 ， 那 么 下 一 个 步骤 融 是 部 普 了 。 根 据 具 体 的 使 用 情况 ， 这 个 


阶段 可 能 有 不 同 的 形式 ， 但 第 见 的 场景 包括 将 其 作为 男 一 个 大 型 应 用 程序 中 的 条 个 功能 特 
性 ， 一 个 定制 的 Web 应 用 程 计 ， 其 至 只 是 一 个 简单 的 cron 作业 。 




































































1. 2 Python 库 和 功能 


Bü, 我们 已 经 对 数据 科学 工作 注 的 每 一 步 有 了 初步 的 理解 ,下面 来 看 看 在 每 一 步 中 ， 
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存在 哪些 有 用 的 Python 库 和 功能 可 供 选 择 。 
1.2.1 获取 


Vi Gp ss ALTI] SNC eo REST 风格 的 API 接口 ， 需 要 知道 的 库 古 Python Request 
Æ (hnttp://www.python-requests.org/en/latest/)。 它 被 称 为 给 人 类 使 用 的 
HTTP, J API 的 交互 提供 了 一 个 整洁 和 简单 的 方式 。 

让 我 们 来 看 一 个 使 用 Requests 进行 交互 的 例子 ， 它 从 GitHub 的 API 中 拉 取 数据 。 在 
这 里 ， 我 们 将 对 该 API 进行 调用 ， 并 请 求 某 个 用 户 的 starred 库 列表 。 


import requests 
r — requests.get(r"https://api.github.com/users/acombs/starred") 





r.json() 
这 个 请 求 将 以 JSON 文档 的 形式 ， 返 回 用户 已 经 标记 为 starred 的 所 有 存储 库 以 及 它们 的 
属性 。 图 1-2 是 上 述 调用 后 输出 结果 的 一 个 片段 。 





[It{'arsbive url': 'https://apl.github.com/repos/matryer/bitbar/[archive formatk[/ref]', 
'aggigneesm url's 'httpai//api.github.com/repos/matryer/bitbar/assignees([/user]', 
'blobs url': 'https://api.cithub.com/repos/matryer/bitbar/git/blobs|/sha)', 

'branches url': 'httpa://api.github.com/repoa/matryer/bitbar/branches|/branch]', 
'clone url': 'httpsi//github.com/mstryer/bitbar.git', 

'collaborators url': 'httpae://api.github.com/repos/matryer/bitbar/collaboratorsa([(/collaborator]', 
'Gomments url'i 'httpai//anoi.dgithub.com/repoa/matryer/bitbar/aomments[/number]', 
'commits url': 'https:r//api.github.com/repos/matryer/bitbar/commitgs|/sha)', 

'aompare url': 'httpsi//api.github.com/repos/matryer/bitbar/caompare/(base)...(head)', 
'contents url': 'httpa://api.github.com/repos/matryer/bitbar/contents/(4path)', 
'ceontributors url': 'httpa:i//api.github.com/repos/matryer/bitbar/contributora', 
'cremted at'r 'Zü0l3-11-13T21100:122Z', 

'default branch': 'master', 

'deploymenta url': 'httpasi//api.github,.com/repos/matryer/bitbar/deploymenta', 
'description': 'Put the output from any script or program in your Hac OB X Henu Bar', 
'downloada url': 'httpai//api.github.com/repos/matryer/biltbar/downloads', 

'eventg url": 'https://api.github.rom/repoas/mmtryer/bitbar/events', 

'fork': False, 

'£ork&'r 174, 

'forks count': 174, 





图 1-2 





Requests 库 有 数量 怀 人 的 特性 一 这 里 无 法 全 部 涵 瘟 ， 我 建议 你 看 看 上 面 捉 供 的 链 
接 所 指 回 的 文档 。 


1.2.2 检查 


由 于 数据 检查 是 机 强 学 习 应 用 开 友 中 关键 的 一 步 ， 我 们 现在 来 深入 了 解 几 个 库 ， 它 们 
将 在 此 项 任务 中 很 好 地 为 我 们 服务 。 


1. Jupyter 记事 本 
许多 库 有 助 于 减轻 数据 检查 过 程 的 工作 负荷 。 首 先是 带 有 Python 
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(http://ipython.org/) 的 Jupyter 记事 本 。 这 是 一 个 全 面 的 、 交 互 式 的 计算 环境 ， 对 
于 数据 探索 是 非常 理想 的 选择 。 和 大 多 数 开 发 环境 不 同 ，Jupyter 记事 本 是 一 个 基于 Web 的 
前 并 (相对 于 IPython 的 内 核 而 言 )， 被 分 成 单个 的 代码 块 或 单元 。 根 据 需 要 ， 单 元 可 以 单 
独 运行 ， 也 可 以 一 人 次 全 部 运行 。 这 使 得 开发 人 员 能 够 运行 菜 个 场景 ， 看 到 输出 结果 ， 然 后 
回 到 代码 ， 做 出 调整 ， 再 看 看 所 产生 的 变化 一 一 所 有 这 些 都 无 需 离 开 记 事 本 。 图 1-3 是 在 
Jupyter 记事 本 中 进行 交互 的 样 例 。 





Ee JU pyter Jugpryter Dome Las cneckpoint: 15 minutes ago [mitoseved, 


Ez 中 5B 2 | NV S x + o HH B © Cox 2 — al ToskEx ki 


n ]: import os 


n [2]: me.qetzwdi] 


Bar Cat 


n ] onm.cbdirí'/Ussrgs/mslexcomba/Desktop/Ipyrthkon Dern/'| 


n [àji Ipad 


füners/alexonmbs/Denktop/IPrython Demo 





图 1-3 


请 注意 ， 我 们 在 这 里 做 了 一 系列 的 事情 ， 并 不 仅仅 是 和 IPython 的 后 器 进 行 交 互 ， 而 
且 也 和 终端 shell 进行 了 交互 。 这 个 特定 的 实例 运行 了 Python 3.5 的 内 核 ， 但 如 有 果 你 愿意 ， 
也 可 以 很 容易 地 运行 Python 2.X 的 内 核 。 在 这 里 ， 我 们 已 经 引入 了 Python os 库 ， 并 进行 
了 一 次 调用 ， 找 到 当前 的 工作 目录 (单元 #2)， 你 可 以 看 到 输入 代码 单元 格 下 方 的 输出 。 
然后 ， 我 们 在 单元 #3 中 使 用 os 库 改变 了 这 个 目录 , [Hoe EH ZUR 4 中 俘 止 使 用 os FE, m 
是 开始 使 用 基于 Linux 的 命令 。 这 有 是 通过 在 单元 前 添加 ! 符号 来 完成 的 。 在 单元 #6 中 可 
以 看 到 ， 我 们 甚至 能 够 将 shell 的 输出 保存 到 一 个 Python 变量 (file two)。 这 是 一 个 很 
标的 功能 ， 使 文件 操作 变 成 了 一 项 徐 单 的 任务 。 

现在 ， 让 我 们 来 看 看 使 用 该 记事 本 所 进行 的 一 些 简 单 的 数据 操作 。 这 也 是 我 们 首次 介 
绍 另 一 个 不 可 或 缺 的 库 : pandase 














2. Pandas 
Pandas 是 一 个 里 越 的 数据 分 析 工 具 . WR $E Pandas 的 文档 
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(http://pandas.pydata.org/pandas-docs/version/0.17.1/): 
UH PSI RWHP UEBER ERM R BIA T GAS 2) PT BTE Le 
即使 它 还 没有 达到 这 个 目标 ， 也 不 会 差 得 太 远 。 现 在 让 我 们 来 看 看 。 


import os 








import pandas as pd 
import requests 


PATH = r'/Users/alexcombs/Desktop/iris/' 


r= 
requests.get('https://archive.ics.uci.edu/ml/machine-learning-databases/iri 
s/iris.data') 


with open(PATH + 'iris.data', 'w') as f: 
f.write(r.text) 


os.chdir (PATH) 


df = pd.read csv(PATH + 'iris.data', names-['sepal length', 'sepal width', 
'petal length', 'petal width', 'class']) 


df.head() 

前 面 的 代码 和 屏幕 截图 如 图 14 所 示 ， 我 们 已 经 从 
https://archive.ics.uci. A 下 载 了 一 个 经 典 的 机 器 学 习 数 
据 集 : iris.data， 并 将 其 写 入 iris 目录 。 这 实际 上 是 一 个 CSV 文件 ， 通 过 Pandas, 
我 们 进行 了 一 个 调用 并 读 取 了 该 文件 。 我 们 还 增加 了 列 名 ， 因 为 这 个 特定 的 文件 缺 一 个 标 
题 行 。 如 果 该 文件 已 经 包含 了 一 个 标题 行 ，Pandas 会 自动 解析 并 反映 这 一 点 。 和 其 他 CSV 
库 相 比 ，Pandas 将 其 变 为 一 个 简单 的 操作 。 


"Dusk [ssa win [ww | xs - 
We p quo e pem 
Mee ge e e emm 





Ee pr pe jr — emm 
aje CNN ERN fo fresca 
Mp EE oe mmm 








1-4 
解析 文件 只 是 该 库 的 一 个 小 功能 。 对 适合 于 单 台 机 器 的 数据 集 而 言 ，Pandas 是 个 终极 
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的 工具 ， 这 有 点 像 Excel。 残 像 流 行 的 电子 表格 程序 ， 操 作 的 基本 单位 是 表格 形式 的 数据 列 
MÍT. Œ Pandas 的 术语 中 ， 数 据 列 称 为 系列 (Series), MRIKA 
数据 框 (DateFrame ) 。 

使 用 之 前 截屏 中 同样 的 iris 数据 框 ， 让 我 们 来 看 看 几 个 常见 
的 操作 。 

df['sepal length'] 

前 面 的 代码 生成 图 1-5 的 输出 。 

第 一 个 操作 是 通过 列 名 ， 从 数据 框 中 选择 菏 一 列 。 执 行 数据 切 
厂 的 男 一 种 方式 是 使 用 .ix[row, column] 标 注 。 让 我 们 使 用 下 面 
这 个 标注 ， 来 选择 前 两 列 和 前 四 行 。 

df.ix[:3, :2] 

前 面 的 代码 生成 图 1-6 的 输出 。 

使 用 .ix 标注 和 Python 列表 切片 的 语法 ， 我 们 能 够 选择 该 数据 框 中 的 一 小 片 。 现 在 ， 
让 我 们 更 进一步 ， 使 用 列表 友 代 磊 并 只 选择 摘 述 width 的 列 。 

df.ix[:3, [x for x in df.columns if 'width' in x]] 


前 面 的 代码 生成 图 1-7 所 示 的 输出 。 





g 
1 
2 
3 
d 
5 
b 
d 
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图 1-6 图 1-7 


我 们 在 这 里 所 做 的 是 创建 一 个 列表 ， 该 列表 是 所 有 列 的 一 个 子 集 。 前 面 的 
df.columns 返回 所 有 列 的 列表 ， 而 我 们 的 迭代 使 用 了 一 个 条 件 查 询 ， 只 选择 标题 中 含有 
width 字样 的 列 。 显 然 ， 在 这 种 情况 下 ， 我 们 可 以 很 容易 地 拼写 出 希望 在 列表 中 出 现 的 列 ， 
但 是 这 里 展示 了 处 理 大 规模 数据 集 时 该 库 所 具有 的 能 

我 们 已 经 看 到 了 ， 如 何 基于 其 在 数据 框 中 的 位 置 ， 来 选择 数据 的 分 片 ， 现 在 来 看 看 另 
一 种 选择 数据 的 方法 。 这 次 ， 我 们 将 根据 某 些 特定 的 条 件 ， 来 选择 数据 的 一 个 子 集 。 我 们 
首先 列 出 所 有 可 用 的 唯一 类 ， 然 后 选择 其 中 之 一 。 


df£['class'].unique() 
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前 面 的 代码 生成 图 1-8 的 输出 。 





df[df['class']=='Iris-virginica'] 


在 图 1-9 所 示 最 右 侧 的 一 列 中 ， 我 们 可 以 看 到 数据 框 只 包含 Iris-virginica 类 的 
数据 。 事 实 上 ， 选 择 之 后 图 1-11 中 数据 框 的 大 小 是 50 行 ， 比 图 1-10 中 原来 的 150 行 要 小 


— k 


df.count() 


d£[df['class']--'Iris-virginica'].count() 


[ [ues wma [ era [www xm — 
We fe fo qo eee 
Mee gr e — [e freona 
Mp. pe — pe [e — Jem 
afes — s — pe — qu frevo 
Mes — o le le even 
Meps — o — pe — je freva 
Mes — gs fs pr — prem 
Mp gs fes pu — pev 


Mee fes — pe fe pen 
Map: — ps — je ee — jen 
mis e [op pee 


TESEK RE 

1658 T, RE 

WKE 

EIE DEJE 

类 别 

数据 类 型 : int64 数据 类 型 : int64 





图 1-10 图 1-11 


我 们 还 可 以 看 到 ， 在 左 侧 的 索引 保留 了 原始 行 号 。 现 在 ， 可 以 将 这 些 数据 保存 为 一 个 
新 的 数据 框 并 重 置 索引 ， 如 下 面 的 代码 和 截图 1-12 所 示 。 


virginica = df[df['class']--'Iris-virginica'].reset index (drop=True) 
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virginica 


| | wi | wane | weee | HONOR | 类 别 
ls e qe ls evene 
[e — m je pe — [resumen 

: ica 


Iris-virgin 


Iris-virgin 
Iris- virgini 
Iris- virgini 
Iris-virgini 
Iris-virgin 


Iris-virgin 





: =} a 
m t 





EH C ad Edd oda 
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我 们 通过 在 某 个 列 上 放置 条 件 来 选择 数据 ， 现 在 来 添加 更 多 的 条 件 。 我 们 将 回 到 初始 
的 数据 框 ， 并 使 用 两 个 条 件 选择 数据 。 


df[ (df['class']=='Iris-virginica')&(df['petal width']>2.2)] 


上 述 代 人 码 生 成 图 1-13 的 输出 。 


| | | | xm — 
ls — p» feo fes pem 
Map ps je fes emm 
Mme pe e e mnm 
mee — pn e fes pene 
mefr — pe — [e fes [revon 


bel — je — e — p — 
bees e e ps — 
ss — pe [e o 
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数据 框 现在 只 包含 来 自 Iris-virginica 类 、 而 且 花 办 宽度 大 于 2.2 的 数据 。 





Iris-vi 


Iris-virginica 


Iris-virginica 
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现在 ， 让 我 们 使 用 Pandas， 从 虹膜 数据 集中 获取 一 些 快速 的 揪 述 性 统计 数据 。 


df.describe() 


上 述 代码 生成 图 1-14 的 输出 。 


C Teren | en | ee a 


图 1-14 


BE EGRE]. describe () 方 法 被 调用 , 我 们 收 到 了 各 相关 列 的 描述 性 统计 信息 〈 请 
注意 ， 关 别 信息 被 目 动 删除 了 ， 因 为 它 在 这 里 是 不 相关 的 )。 如 采 想 要 更 为 详细 的 信息 ， 还 
可 以 传 入 目 定 义 的 百分比 。 


df.describe(percentiles-[.20,.40,.80,.90,.95]) 


上 述 代码 生成 图 1-15 的 输出 。 


[pee Dex 























图 1-15 
接 下 来 ， 让 我 们 检查 这 些 特 征 之 间 是 个 有 任何 相关 性 。 这 可 以 通过 在 数据 框 上 调 
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用 .corr () 来 完成 。 


df.corr() 


上 述 代码 生成 图 1-16 的 输出 。 


1-16 


默认 地 ， 系 统 返 回 每 个 行 - 列 对 中 的 Pearson 相关 系数 。 通 过 传递 方法 的 参数 ， 还 可 以 
切换 到 Kendall's tau 或 Spearman's 秩 相 关系 数 〈 例 如 ，.corr (method-"spearman") 
JA .corr(method-"kendall")). 

3. 可 视 化 


目前 为 止 ， 我 们 已 经 看 到 如 何 选择 数据 框 的 某 一 部 分 ， 并 从 数据 中 获取 汇总 的 统计 信 
晨 ， 现 在 让 我 们 学 习 如 何 通 过 可 视 化 的 方式 来 观测 数据 。 不 过 首先 要 回答 的 问题 是 ， 为 什 
么 要 花费 心思 进行 可 视 化 的 视察 呢 ? 来 看 一 个 例子 就 能 明日 这 是 为 什么 了 。 

K 1-1 展示 了 四 组 不 同 序列 的 x EM y 值 的 汇总 统计 。 

表 1-1 











Ea 








基于 四 组 序列 拥有 相同 的 汇总 统计 ， 我 们 可 能 会 认为 这 些 系 列 的 可 视 化 看 上 去 也 是 相 
似 。 我 们 当然 是 错误 的 ， 非 党 错误 。 这 四 个 序列 是 安 斯 库 姆 四 重奏 的 一 部 分 ， 他 们 被 刻意 
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制造 出 来 用 于 说 明 可 视 化 数据 检查 的 重要 性 。 每 个 序列 绘制 在 图 1-17 中 。 

斯 [s Us 四 重 E 的 网 址 
https://en.wikipedia.org/wiki/Anscombe£27squartet. 

显然 ， 经 过 可 视 化 的 观察 之 后 ， 我 们 不 再 会 认为 这 些 数据 集 征 相同 的 。 所 以 ， 现 在 我 
们 能 理解 可 视 化 的 重要 性 了 ， 下 面 来 看 看 一 对 用 于 可 视 化 的 、 很 有 价值 的 Python 库 。 




















— ——HÀ—PM— — 
10 12 14 16 18 8 10 12 14 16 18 
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Matplotlib [5E 








我 们 将 要 看 到 的 第 一 个 库 是 matplotlib. 这 是 Python £2 PER] AH. Y « E) Au] 
建 它 是 为 了 仿效 MATLAB 的 绘图 功能 , 现在 它 目 己 已 经 及 展 成 为 特性 完善 的 库 了 ,并 拥有 
超 多 的 功能 。 对 于 那些 没有 MATLAB 背景 的 使 用 者 ,可 能 很 难 理解 所 有 这 些 部 件 是 如 何 共 
同 协作 来 创造 图 表 的 。 

我 们 将 所 有 的 部 件 拆 分 为 多 个 网 辑 模 匡 ， 便 于 大 家 理解 都 及 生 了 些 什么 。 在 深入 理解 
matplotlib 之 前 ， 让 我 们 先 设 置 Jupyter 记事 本 ， 以 便 看 清 每 个 图 像 。 要 做 到 这 一 点 ， 
需要 将 以 下 几 行 添加 到 import 声明 中 。 


import matplotlib.pyplot as plt 








pit.style.use('ggplot') 
$Smatplotlib inline 
import numpy as np 
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第 一 行 引 入 了 matplot1ib， 第 二 行将 风格 设置 为 近似 R 中 的 ggplot 库 〈 这 需要 
matplotlib 1.41)， 第 三 行 设 置 插图 ， 让 它们 在 记事 本 中 可 见 ， 而 最 后 一 行 引 入 了 numpy。 
本 章 稍 后 ， 我 们 将 在 一 些 操作 中 使 用 numpy。 

现在 ， 让 我 们 使 用 下 面 的 代码 ， 在 总 尾 花 Iris 数据 集 上 生成 第 一 个 图 : 


fig, ax = plt.subplots(figsize-(6,4)) 
ax.hist(df['petal width'], color-z'black'); 

ax.set ylabel('Count', fontsize-12) 

ax.set xlabel('Width', fontsize-12) 
pit.title('Iris Petal Width', fontsize-14, y-1.01) 


前 面 的 代码 生成 图 1-18 中 的 输出 。 


35 FÉ 4E ACER V E 
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图 1-18 


即使 是 在 这 个 简单 的 例子 中 ， 也 发 生 了 很 多 事情 ， 让 我 们 来 逐 行 分 析 。 第 一 行 创建 了 
宽度 为 6 英寸 和 高 度 为 4 英寸 的 一 个 插图 。 然 后 ， 我 们 通过 调用 .nist O 并 传 入 数据 ， 依 
照 iris 数据 框 绘 制 了 花瓣 宽度 的 直方 图 ,这 里 还 将 直方 图 中 柱子 的 颜色 设置 为 plack( 黑 
色 )。 接 下 来 的 两 行 分 别 在 y 轴 和 x 轴 上 放置 标签 ,最 后 一 行为 全 图 设置 了 标题 。 其 中 使 用 
y 轴 的 参数 调整 了 标题 在 y 轴 方 向 相对 于 图 片 顶 部 的 位 置 ， 并 微微 增加 了 默认 字体 的 大 小 。 
这 使 得 我 们 从 花瓣 宽度 的 数据 得 到 了 一 个 很 漂亮 的 直方 图 。 现 在 ， 让 我 们 进一步 扩展 ， 为 
iris 数据 集 的 每 一 列 生 成 直方 网 。 


fig, ax = plt.subplots(2,2, figsize-(6,4)) 











ax[0][0].hist(df['petal width'], color-z'black'); 
ax[0][0].set ylabel('Count', fontsize-12) 
ax[0][0].set xlabel('Width', fontsize-12) 
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ax[0][0].set title('Iris Petal Width', fontsize-14, y-1.01) 


ax[0][1].hist(df['petal length'], colorz'black'); 
ax[0][1].set ylabel('Count', fontsize-12) 

ax[0][1].set xlabel('Lenth', fontsize-12) 

ax[0][1].set title('Iris Petal Lenth', fontsize-14, y-1.01) 


ax[1][0].hist(df['sepal width'], color-z'black'); 
ax[1][0].set ylabel('Count', fontsize-12) 

ax[1][0].set xlabel('Width', fontsize-12) 

ax[1][0].set title('Iris Sepal Width', fontsize-14, y-1.01) 


ax[1][1].hist(df['sepal length'], colorz2'black'); 
ax[1][1].set ylabel('Count', fontsize-12) 

ax[1][1].set xlabel('Length', fontsize-12) 

ax[1][1].set title('Iris Sepal Length', fontsize-14, y-1.01) 


plt.tight layout() 
上 述 代码 的 输出 显示 如 图 1-19 所 示 。 
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显然 ， 这 不 是 最 有 效 的 编码 方法 ， 但 是 对 于 展示 matplotlib 是 如 何 工作 的 很 有 用 处 。 
请 注意 , 我 们 现在 是 通过 ax 数组 来 绘制 四 个 子 插 图 , 而 不 是 之 前 例子 中 的 单一 子 插图 对 象 
ax。 新 增加 的 代码 是 调用 plt .tight layout 0. ， 访 方法 将 很 好 地 目 动 调整 子 插图 ， 以 
避免 排版 上 显得 过 于 拥挤 。 


现在 来 看 看 matplotlib 所 提供 的 一 些 其 他 类 型 的 画图 模式 。 一 个 有 用 的 类 型 是 获 后 图 。 
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这 里 ， 我 们 将 在 x HA y 轴 分 布 绘画 伦 匆 党 度 和 论 浙 长 度 。 


fig, ax = plt.subplots (figsize=(6,6)) 

ax.scatter(df['petal width'],df['petal length'], color='green') 
ax.set xlabel('Petal Width') 

ax.set ylabel('Petal Length') 

ax.set title('Petal Scatterplot') 


上 述 的 代码 生成 了 图 1-20 所 示 的 输出 。 
花 泊 散 点 图 
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如 前 所 述 ， 我 们 可 以 添加 多 个 子 插 图 ， 来 检视 每 个 方面 。 
我 们 可 以 考察 的 男 一 种 类 型 是 简单 的 线 图 。 这 里 来 看 看 花瓣 长 度 的 插图 。 


fig, ax = plt.subplots(figsize-(6,6)) 
ax.plot(df['petal length'], colorz'blue') 
ax.set xlabel('Specimen Number") 

ax.set ylabel('Petal Length') 

ax.set title('Petal Length Plot') 


上 述 的 代码 生成 了 图 1-21 所 示 的 输出 。 

基于 这 个 简单 的 线 图 ， 我 们 已 经 可 以 看 到 对 于 每 个 类 别 存 在 鲜明 的 长 度 差 别 一 一 请 记 
住 样本 数据 集 在 每 个 类 别 拥有 50 个 排序 的 样 例 。 这 束 告 诉 我 们 ,论辩 长 度 很 可 能 是 用 于 区 
分 类 列 的 一 个 有 用 特征 。 
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TOXHK RE RS] 


”样本 编号 





图 1-21 


让 我 们 来 看 看 matplot1lib 库 中 最 后 一 个 类 型 的 图 表 : 条 形 图 。 这 也 许 是 最 为 第 见 的 
图 表 之 一 。 这 里 将 使 用 三 类 高 尾 化 中 每 个 特征 的 平均 值 绘 制 一 个 条 形 图 ， 而 且 为 了 让 其 更 
有 趣 ， 我 们 将 使 用 堆积 条 形 图 ， 它 附 市 了 石 干 新 的 matplotlib 特性 。 


fig, ax = plt.subplots (figsize=(6,6)) 
bar width = .8 





labels = [x for x in df.columns if 'length' in x or 'width' in x] 
ver y = [df[df['class']--'Iris-versicolor'][x].mean() for x in labels] 
vir y = [df[df['class']--'Iris-virginica'][x].mean() for x in labels] 
set y = [df[df['class']--'Iris-setosa'][x].mean() for x in labels] 


x — np.arange(len(labels)) 

ax.bar(x, vir y, bar width, bottom-set y, color-'darkgrey') 
ax.bar(x, set y, bar width, bottom-ver y, color-z'white') 
ax.bar(x, ver y, bar width, color-'black') 

ax.set xticks(x + (bar width/2)) 

ax.set xticklabels(labels, rotation--70, fontsize-12); 
ax.set title('Mean Feature Measurement By Class', y-1.01) 
ax.legend(['Virginica','Setosa', 'Versicolor']) 


述 的 代码 生成 图 1-22 所 示 的 输出 。 
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Out[160]: «matplotlib.legend.Legend at 0x111524cd0» 


每 个 类 别 中 特征 的 平均 测量 值 


12 
Virginica 
Setosa 
mmm Versicolor 
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为 了 生成 条 形 图 ， 我 们 需要 将 x 和 y 的 值 传递 给 .ba () 方 法。 在 这 种 情况 下 ，x 值 
将 只 是 我 们 感 兴趣 的 特征 的 长 度 的 数组 ， 在 这 个 例子 中 是 4， 或 者 是 数据 框 中 列 的 数量 。 
HZ np.arange () 是 产生 这 个 数值 的 简单 方法 ， 但 也 可 以 轻松 地 手动 输入 这 个 数组 。 由 
于 我 们 不 想 在 x 轴 显示 1 到 4， 因 此 调用 了 .set xticklabels () 方 法 并 传 入 想 要 显示 的 列 
名 。 为 了 让 x 轴 的 标签 对 齐 ， 我 们 还 需要 调整 标签 之 间 的 间隔 。 这 就 是 为 什么 将 xticks 
设置 为 x 加 上 bar width 值 的 一 半 ， 而 我 们 先前 已 经 将 bar width 设置 为 0.8。 这 里 y 
值 来 自 每 个 类 别 中 特征 的 平均 值 。 然 后 ， 通 过 调用 .bar O 绘制 每 个 插图 。 需 要 注意 的 是 ， 
我 们 为 每 个 序列 传 入 一 个 bottom 参数 ， 这 个 参数 将 该 序列 的 y 点 最 小 值 设置 为 其 下 面 那 
个 序列 的 y 点 最 大 值 。 这 残 能 创建 堆积 条 形 图 。 最 后 ， 添 加 了 一 个 图 例 来 描述 每 个 序列 。 
按照 从 顶部 到 底部 条 形 放 置 的 顺序 ， 我 们 依次 在 图 例 中 插入 了 相应 的 名 称 。 

















Seaborn È 


R 们 B 下 来 将 看 到 BS wp Wh 45 PEE RAN seaborn 
(http://stanford.edu/^mwaskom/software/seaborn/index.html).'rzE &[] 
为 统计 可 视 化 而 创建 的 库 。 事 实 上 ，seaborn HLM pandas 数据 框 完美 地 协作 ， 框 中 的 
列 是 特征 而 行 古 观测 的 样 例 。 这 种 数据 框 的 风格 被 称 为 整洁 的 数据 ， 而 且 它 是 机 右 学 习 应 
用 中 最 第 见 的 形式 。 
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现在 让 我 们 来 看 看 seaborn 的 能 力 。 


import seaborn as sns 
sns.pairplot(df, huez"class") 


仅仅 通过 这 两 行 代码 ， 我 们 就 可 以 得 到 图 1-23. 所 示 的 输出 。 


Out[175]: <seaborn.axisgrid.PairGrid at 0x1115e9390> 


类 别 
. lIris-setosa 
s Iris-versicolor 


Iris-virginica 
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就 在 刚刚 我 们 详细 地 讨论 了 matplotlib 错综复杂 的 细微 之 处 ， 而 生成 这 张 图 的 简单 
ed rel 了 两 行 代 码 ， 所 有 的 特征 都 已 经 被 绘画 出 来 ， 彼 此 对 照 并 标 上 了 
正确 的 标签 。 那么 , 当 seaborn 使 得 这 种 可 视 化 变 得 如 此 简单 的 时 候 , 552] matplotlib 





W, O 


SNAM 驻 运 的 是 ， 情 况 并 非 如 此 ，seaborn 是 建立 在 matplotlib 之 上 的 。 
事实 上 ， 我 们 可 以 使 用 所 学 的 matplotlib 知识 来 修改 并 使 用 seaborn。 让 我 们 来 看 看 
另 一 个 可 视 化 的 例子 。 


fig, ax = plt.subplots(2, 2, figsize-(7, 7)) 
sns.set(style-'white', palette-'muted') 
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sns.violinplot(x-df['class'], y-df['sepal length'], ax-ax[0,0]) 
sns.violinplot(x-df['class'], y-df['sepal width'], ax-ax[0,1]) 

sns.violinplot(x-df['class'], y-df['petal length'], ax-ax[1,0]) 
sns.violinplot(x-df['class'], y-df['petal width'], ax-ax[1,1]) 

fig.suptitle('Violin Plots', fontsize-16, y-1.03) 

for i in ax.flat: 

plt.setp(i.get xticklabels(), rotation--90) 

fig.tight layout() 


以 上 代码 行 生 成 图 1-24 所 示 的 输出 。 
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这 里 ， 我 们 为 4 个 特征 分 别 生 成 了 小 提 蕉 图 。 小 提 蕉 图 显示 了 特征 的 分 布 情况 。 例 如 ， 
我 们 可 以 很 容易 地 看 到 类 别 irissetosa WEW KERR RRE 1 一 2 厘米 之 间 ， 而 类 别 
iris-virginica 分 散在 4—7 厘米 之 间 。 我 们 还 可 以 看 到 ， 之 前 在 构建 matplotlib 
图 形 时 使 用 了 许多 相同 的 代码 。 这 里 主要 的 区 别 在 于 加 入 了 sns .plot() 调用 来 取代 之 前 
的 ax.plot() 调 用。 我 们 还 使 用 了 fig.suptitle() 方 法 ， 在 所 有 的 子 图 上 添加 了 一 个 
忌 标 题 ， 而 不 是 在 每 个 蛙 独 的 子 图 上 各 目 添 加 标题 。 故 一 个 明显 的 添加 部 分 ， 是 每 个 子 图 
的 遇 历 取代 了 之 前 xticklabels 的 轮换 。 我 们 调用 ax.flat O, WAANT EH, 
并 使 用 .setp0 设 置 特定 的 属性 。 这 可 以 让 我 们 不 再 需要 像 之 前 matplotlib 子 图 代码 那样 ， 
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单独 地 斋 打 ax[0] [0]...ax[1] [1]， 并 设置 属性 。 


我 们 在 这 里 使 用 的 图 是 一 个 很 好 的 开始 ， 但 是 你 可 以 使 用 matplotlib 和 seaborn 创建 上 
百 种 不 同 风格 的 图 形 。 我 强烈 建议 深入 研究 这 两 个 库 的 文档， 这 将 是 非常 值得 的 。 


1.2.3 准备 


我 们 已 经 学 到 了 很 多 有 关 检 查 数据 的 内 容 , 现在 让 我 们 开始 学 习 如 何 处理 和 操作 数据 。 

里 你 将 了 解 pandas 的 Series.map()、Series.apply()、DataFrame. apply O> 
DataFrame.applymap () 和 DataFrame.groupby() 方 法 。 这 些 对 于 处 理 数据 而 言 
非常 有 价值 的 ， 而 且 在 特征 工程 的 机 器 学 习 场 景 下 特别 有 用 ， jue Eta d 
讨论 这 个 概念 。 




















1. Map 


Map 方法 适用 于 序列 数据 ， 所 以 在 我 们 的 例子 中 将 用 它 来 转变 数据 框 的 某 个 列 ， 它 就 
是 一 个 pandas 的 序列 。 假 设 我 们 觉得 类 别 的 名 字 太 长 了 ， 并 且 和 希望 使 用 特殊 的 3 字母 代 
fh ZR EROS] CETT. 为 了 实现 这 点 ,我 们 将 使 用 map 方法 并 将 一 个 Python 字典 作为 其 参 
数 。 这 里 将 为 每 个 单独 的 包 尾 伦 类 型 传 入 殖 换 的 文本 。 








df['class'] = df['class'].map(('Iris-setosa': 'SET', 'Iris-virginica': 
'VIR', 'Iris-versicolor': 'VER'!)) 
df 


前 面 的 代码 生成 图 1-25 的 输出 。 


只 
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下 面 来 看 看 这 里 做 了 些 什 么 。 我 们 在 现 有 class 列 的 每 个 值 上 运行 了 map 的 方法 。 
由 于 每 个 值 都 能 在 Python 字典 中 找到 ， 所 以 它 会 被 添加 到 被 返回 的 序列 。 我 们 为 返回 序列 
赋予 了 相同 的 class 名 ， 所 以 它 奉 换 了 原 有 的 class 列 。 如 果 我 们 选择 了 一 个 不 同 的 名 
字 ， 例 如 shortclass， 那 么 这 一 列 会 被 奶 加 到 数据 框 ， 然 后 我 们 将 有 初始 的 class 列 
外 加 新 的 short class 列 。 


我 们 还 可 以 同 map 方法 传 入 另 一 个 序列 或 函数 ， 来 执行 对 茶 个 列 的 转变 ， 但 这 个 功 
能 在 apply 方法 也 是 可 用 的 , 下 面 这 节 会 讨论 该 方法 。 字 — 典 的 功能 是 map 方法 所 独 有 的 ， 
这 也 是 选择 map 而 不 是 apply 进行 单列 转变 的 最 第 见 原因 ,现在 让 我 们 来 看 看 apply 方 法 。 














2. Apply 


Apply 的 方法 让 我 们 既 可 以 在 数据 框 上 工作 ， 也 可 以 在 序列 上 工作 。 我 们 将 从 一 
能 使 用 map 的 例子 开始 ， 然 后 再 讨论 只 能 使 用 apply 的 示例 。 


继续 使 用 iris 数据 框 ， 让 我 们 根据 化 为 的 锅 度 来 创建 新 的 列 。 之 前 我 们 看 到 化 办 宽 
度 的 平均 值 为 13。 现在， 在 数据 框 中 创建 一 个 新 的 列 一 客 化 狼 ， 它 包含 一 个 基于 petal 
width 列 的 二 进 制 值 。 AIARAEXESSSUSE T BOE T m MARTERA 1， 而 如 果 它 
小 于 中 值 ， 我 们 将 其 编码 为 0。 为 了 实现 这 点 ， 这 里 将 在 petal width 这 列 使 用 apply 
2025s 

df['wide petal'] = df['petal width'].apply(lambda v: 1 if v >= 1.3 else 0) 

df 


前 面 的 代码 生成 图 1-26 所 示 的 输出 。 
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这 里 及 生 了 几 件 事情 ， 让 我 们 一 步 一步 来 看 。 首 先 ， 我 们 为 所 要 创建 的 列 名 简单 地 使 
用 了 列 选 择 的 语法 ， 同 数据 框 仍 加 一 个 新 的 列 ， 在 这 个 例子 中 是 wide petal。 我 们 将 这 
个 新 列 设 置 为 apply 方法 的 输出 。 这 里 在 petal width 列 上 运行 apply， 并 返回 了 了 wide 
petal 列 的 相应 值 。Apply 方法 作用 于 petal width 列 的 每 个 值 。 如 果 该 值 大 于 或 等 于 
1.3, KÄORE 1; AU, RE 0。 这 种 类 型 的 转换 在 机 器 学 习 领 域 是 相当 普 过 的 特征 工程 
转弯， 所 以 最 好 熟悉 如 何 执行 它 。 


现在 让 我 们 来 看 看 如 何在 数据 框 上 使 用 apply， 而 个 是 在 一 个 单独 的 友 列 上 。 现 在 将 
基于 petal area 来 创建 一 个 新 的 特征 。 
df['petal area'] = df.apply (lambda r: r['petal length'] * r['petal width'], 


axis-1) 
df 


前 面 的 代码 生成 图 1-27 的 输出 。 
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图 1-27 


请 注意 ， 这 里 不 是 在 一 个 序列 上 调用 appLy， 而 是 在 整个 数据 框 上 。 此 外 正 是 由 于 在 整 
个 数据 框 上 调用 了 apply, 我们 传送 了 axis-1 TS SORTE UE pandas， 我 们 要 对 行 运 用 也 
数 。 如 果 传 入 了 axis=0， 那 么 该 国 数 将 对 列 进 行 操 作 。 这 里 ， 每 列 都 是 被 顺 序 地 处 理 ， 我 
们 选择 将 petal length 的 值 和 petal width 的 值 相 乘 。 得 到 的 序列 束 将 成 为 数据 框 中 
的 petal area 列 。 这 种 能 力 和 灵活 性 使 得 pandas 成 为 了 数据 操作 不 可 或 缺 的 工具 








3. Applymap 


我 们 已 经 学 习 了 列 的 操作 ， J ATE E 不 过 ， 假 设 你 想 OR SCR EC UT 
A KAEA ANRA, MOZA? 这 时 applymap 就 是 合适 的 工具 了 。 这 里 
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看 一 个 例子 。 
df.applymap(lambda v: np.log(v) if isinstance(v, float) else v) 


前 面 的 代码 生成 图 1-28 的 输出 。 


o 1.629241 1.252763 0.336472 -1.609438 Iris-setosa Jo — -1.272966 
M [1.589235 1.098612 0.336472 -1.609438  |lris-setosa o |-1.272966 


2 1.547563 1.163151 0.262364 -1.609438 Iris-setosa Jo | -1.347074 
3 1.526056 1.131402 0.405465 -1.609438 Iris-setosa Jo | -1.203973 
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在 这 里 ， 我们 在 数据 框 上 调用 了 applymap， 如 果 菏 个 值 是 float 类 型 的 的 实例 ， 那 么 
就 会 获得 该 值 的 对 数 (np .1log() 利用 numpy 库 返 回 该 值 )。 这 种 类 型 的 检查 ， 可 以 防止 
系统 返回 一 个 错误 信息 ， 或 者 是 为 字符 串 型 的 class 列 或 整数 形 的 wide petal 列 返回 
浮动 值 。App1Lymap 的 第 见 用 法 是 根据 一 定 的 条 件 标 准 来 转变 或 格式 化 每 一 个 单元 。 














4. Groupby 


现在 ， 让 我 们 来 看 一 个 非常 有 用 ， 但 对 于 新 pandas 用 户 往 往 难 以 理解 的 操作 一 一 数据 
HE . groupby 0 方法。 我 们 将 逐步 分 析 石 干 例子 ， 来 展示 这 个 最 为 重要 的 功能 。 


这 个 groupby 操作 就 如 其 名 一 一 它 基 于 某 些 你 所 选择 的 类 别 对 数据 进行 分 组 , 让 我 们 
使 用 iris 数据 集 来 看 一 个 简单 的 例子 。 这 里 将 回 到 之 前 的 步 台 ,和 章 狐 导入 最 初 的 iris 
数据 集 ， 并 运行 第 一 个 groupby 操作 。 

df.groupby('class').mean() 

前 面 的 代码 生成 图 1-29 所 示 的 输出 。 
| [eK [E3908 ORE | 花 游 宽度 | EDS OR 
[xm | | | o [| |] | 
esee [som feme que foa loo qm 


y 
7 
0 





5.936 2.770 4.260 1.326 0. 
lris-virginica | 6.588 2.974 5.552 2.026 11.2962 


1-29 
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系统 按照 闫 别 对 数据 进行 了 划分 ， 并 且 提 供 了 每 个 特征 的 均值 。 让 我 们 现在 更 进一步 ， 
得 到 每 个 类 列 完 全 的 描述 性 统计 信息 。 


df.groupby('class').describe() 


前 面 的 代码 生成 图 1-30 所 示 的 输出 。 


Lx | | | | T S T 
u 
lris-versicolor 








75% |12.790000 |5.875000 2.300000 . |6.900000 3.175000 1.00000 
最 大 值 | 15.870000 | 6.900000 2.500000 |7.900000 3.800000 1.00000 


图 1-30 











现在 我 们 可 以 看 到 每 个 class 完整 的 分 解 。 再 来 看 看 其 他 一 些 可 执行 的 groupby 操作 。 
之 前 ， 我 们 看 出 花 匆 长 度 和 宽度 在 不 同类 之 间 有 一 些 比较 明显 的 区 别 ， 这 里 让 我 们 看 看 如 
何 使 用 groupby 来 发 现 这 一 点 。 

df.groupby('petal width')['class'].unique().to frame() 


前 面 的 代码 生成 图 1-31 所 示 的 输出 。 
在 这 个 例子 中 ， 我 们 通过 和 每 个 唯一 关 相 关联 的 化 为 宽度 ， 对 类 别 进 行 分 组 。 这 里 测 














E 
e 
Hi 





量 组 的 数量 还 是 可 管理 的 ， 但 是 如 条 这 个 数量 将 要 增 大 很 多 ， 那 么 我 们 很 可 能 需 
分 割 为 不 同 的 范围 。 正 如 之 前 看 到 的 ， 这 氮 可 以 使 用 apply 方法 来 完成 。 


[Iris-setosa] 
[Iris-setosa 
[Iris-versicolor] 
[Iris-versicolor] 
[Iris-versicolor] 


[Iris-versicolor] 


Oo 
D, 


[Iris-versicolor, Iris-Virgini 


已 
D, 


[Iris-versicolor, Iris-virgini 


[Iris-versicolor, lris-virginica 


[Iris-versicolor, lris-virgini 


i—i 





O 
D, 





O 
D, 


[Iris-versicolor, lris-virgini 
[Iris-virginica] 
[Iris-virginica] 
[Iris-virginica] 
[Iris-virginica] 
[Iris-virginica] 
[Iris-virginica] 


[Iris-virginica] 





图 1-31 


现在 来 看 一 个 目 定义 的 聚集 函数 。 


df.groupby('class')['petal width']^ 


.agg(('delta': lambda x: x.max() - x.min(), | 
a dm o || | 
前 面 的 代码 生成 图 1-32 所 示 的 输出 。 Mis-setosa o: [os fos | 


lris-versicolor | 1.0 |1.8 
在 这 段 代码 中 ， 我 们 根据 类 别 来 分 组 花 闪 宽 度 的 时 Me] 


1.4 |2.5 |1.1 
候 ， 使 用 np .max 和 np .min 这 两 个 图 数 〈 两 个 np 函数 来 目 pri pe et 


numpy 库 )， 以 及 返回 最 大 花瓣 宽度 减 去 最 小 花瓣 宽度 的 1-32 
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1ambda 函 数 。 这 些 都 以 字典 的 形式 ， 传 递 给 .agg () 方法 ， 以 此 返回 一 个 将 字典 键 值 作为 
列 名 的 数据 框 。 可 以 仅仅 运行 函数 本 身 或 者 传递 函数 的 列表 ， 不 过 列 的 名 称 所 含 信息 量 就 
EDT O. 


我 们 只 是 刚刚 接触 了 groupby 方法 的 一 些 功 能 
E a 
http://pandas.pydata.org/pandas-docs/ 
stable/;, 





对 于 准备 阶段 中 如 何 操纵 和 准备 数据 ， 我 们 现在 有 了 扎实 的 基本 理解 ， 而 下 一 步 就 是 
建 模 。 这 里 即将 讨论 Python 机 器 学 习 生 态 系统 中 最 为 主要 的 一 些 库 。 


1.2.4 建 模 和 评估 


对 于 统计 建 模 和 机 器 学 习 ，Python 有 许多 很 优秀 的 、 文 档 详实 的 库 供 选 择 。 下 面 只 谈 
及 最 流行 的 几 个 库 。 





1. Statsmodels 


我 们 要 介 8 的 第 一 个 库 是 statsmodels 
(http://statsmodels.sourceforge.net/). 


Statsmodels 是 用 于 探索 数据 、 估 计 模 型 ， 并 运行 统计 检验 的 Python 包 。 在 这 里 ， 让 我 
们 使 用 它 来 构建 一 个 简单 的 线性 回归 模型 ， 为 setosa APES KEME wE LER 
系 进行 建 模 。 


自 完 ， 通 过 获 操 图 来 目测 这 两 者 的 关系。 


fig, ax = plt.subplots (figsize=(7,7)) 

ax.scatter(df['sepal width'][:50], df['sepal length'][:50]) 
ax.set ylabel('Sepal Length') 

ax.set xlabel('Sepal Width') 

ax.set title('Setosa Sepal Width vs. Sepal Length', fontsize-14, 
y-1.02) 











(D 译 者 注 : 束 是 将 函数 以 列表 的 形式 ， 而 不 是 字典 的 形式 进行 传送 。 这 样 就 缺乏 "delta"、"min" 和 "max" 这 样 的 键 
值 作为 列 名 ， 目 动 生成 的 列 名 就 不 会 有 太 多 的 含义 。 
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前 面 的 代码 生成 图 1-33 所 示 的 输出 。 


Setosa Sepal Width vs. Sepal Length 


iL n 





图 1-33 
du ES). MOEAHN —PIEIRIBJZETESSA. Eme, WES wE, dex 
长 度 也 会 增加 。 接 下 来 我 们 使 用 statsmodels， 在 这 个 数据 集 上 运行 一 个 线性 回归 模型 ， 来 
预 估 这 种 关系 的 强度 。 


import statsmodels.api as sm 








y = df['sepal length'][:50] 
df£['sepal width'][:50] 


X — sm.add constant (x) 


X 
I 


results = sm.OLS(y, X).fit() 


print (results .summary ()) 
前 面 的 代码 生成 图 1-34 所 示 的 输出 。 


图 1-34 所 示 的 屏幕 截图 显示 了 这 个 简单 回归 模型 的 结 末 。 由 于 这 是 一 个 线性 回归 ， 该 
模型 的 格式 为 Y=BO+B1X, 其 h BO en B1 是 回归 系数 。 在 这 里 , 最 终 公式 是 Sepal 
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Length = 2.6447 + 0.6909 x Sepal Wigdth。 我 们 也 可 以 看 到 ， 该 模型 的 R2 值 是 





mE VI SE AX, El Au EE X > E 
个 可 以 接受 的 0.558， 而 p 值 (Prob) 是 非常 显著 的 一 一 全 少 对 于 这 个 类 而 言 。 
OLS Regression Results 

Dep. Variable: sepal length R-squared: 0.558 
Model: OLS Adj. R-squared: 0.548 
Method: Least Squares F-statistic: 60.52 
Date: Sun, 11 Oct 2015 Prob (F-statistic): 4.75e-10 
Time: 18:14:39 Log-Likelihood: 2.0879 
No. Observations: 50 AIC: -0.1759 
Df Residuals: 48 BIC: 3.648 
Df Model: 1 

coef std err t P»|t| [95.0% Conf. Int.] 
const 2.6447 0.305 8.660 0.000 2.031 3.259 
sepal width 0.6909 0.089 7.779 0.000 0.512 0.869 
Omnibus: 0.252 Durbin-Watson: 24517 
Prob(Omnibus): 0.882 Jarque-Bera (JB): 0.436 
Skew: -0.110 Prob(JB): 0.804 
Kurtosis: 2.599 Cond. No. 34.0 

1-34 


现在 让 我 们 使 用 结束 对 象 来 绘制 回归 线 。 


fig, ax = plt.subplots(figsize-(7,7)) 

ax.plot(x, results.fittedvalues, label-'regression line') 
ax.scatter(x, y, label-'data point', color-z'r') 

ax.set ylabel('Sepal Length') 

ax.set xlabel('Sepal Width') 

ax.set title('Setosa Sepal Width vs. Sepal Length', fontsize-14, 
y-1.02) 

ax.legend(1l1oc-2) 


前 面 的 代码 生成 图 1-35 所 示 的 输出 。 
通过 绘制 results.fittedvalues， 我 们 可 以 获取 从 模型 所 得 的 回归 线 。 


在 statsmodels 包 中 ， 还 有 一 些 其 他 的 统计 函数 和 测试 模块 ， 我 硕 望 你 能 去 探索 它 
们 。 对 于 Python 中 标准 的 统计 建 模 而 言 ， 这 是 一 个 非常 有 用 的 包 。 接 下 来 ， 让 我 们 开始 学 
2] Python 机 器 学 习 包 中 的 王者 : scikit-learn. 














2. scikit-learn 
scikit-learn 是 一 个 令 人 惊 言 的 Python 库 ， 作 者 们 为 其 设计 了 无 与 伦比 的 文档 ， 为 几 十 


个 算法 提供 了 统一 的 API 接口 。 它 建立 在 Python 科学 栈 的 核心 模块 之 上 ， 也 就 是 NumPy、 
SciPy、pandas 和 matplotlib。scikit-learn 覆盖 的 一 些 领域 包括 : 分 类 、 回 归 、 聚 类 、 降 维 、 
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模型 选择 和 预 处 理 。 


Setosa Sepal Width vs. Sepal Length 


= regression line 
e data point 





JLDEAUBJLTHMIE. Bs. EH iris 数据 建立 一 个 分 类 器 ， 然 后 学 习 如 何 利用 
scikit-learn. 的 工具 来 评估 得 到 的 模型 。 

在 scikit-learn 中 打造 机 右 学 习 模 型 的 第 一 步 ， 是 理解 数据 应 该 如 何 构 建 。 独 立 变 量 应 
该 是 一 个 数字 型 的 nxm 纬 的 矩阵 x、 一 个 因 变 量 y 和 nx1 维 的 同 量 。 iX y In] si n] EA AE XE AE 
的 数字 ， 也 可 以 是 离散 的 数字 ， 还 可 以 是 离散 的 字符 串 类 型 。 然 后 将 这 些 同 量 传 递 到 指定 
分 类 器 的 .fit O 方法。 这 是 使 用 scikit-learn 最 大 的 好 处 , 每 个 分 类 器 都 尽 最 大 可 能 地 使 用 
同样 的 方法 。 如 此 一 来 ， 它 们 的 交换 使 用 易如反掌。 

让 我 们 来 看 看 在 第 一 个 例子 中 ， 如 何 实 现 。 


from sklearn.ensemble import RandomForestClassifier 








from sklearn.cross validation import train test split 


clf = RandomForestClassifier (max depth=5, n estimators=10) 


D< 
| 


= df.ix[:,:4] 
df.ix[:,4] 


< 
| 
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X train, X test, y train, y test = train test split(X, y, 
test size-.3) 


clf.fit(X train,y train) 
y pred - clf.predict(X test) 


rf = pd.DataFrame(list(zip(y pred, y test)), columns-['predicted', 
'actual']) 

rf['correct'] = rf.apply(lambda r: 1 if r['predicted'] -- 
r['actual'] else 0, axis-1) 

rf 


前 面 的 代码 生成 图 1-36 的 输出 。 


| xa jesea 
earns [mewon + 
1 [reversion [rcverscner i 
2 rewones [meonea | — 


He vwersicoior verser: 
| roverscoor risvescoe |: 
oversooor | reverscoor |- 
Iris-setosa 


1-36 


| 
sescao | 
sescao | 
versieoor 


ul 
" 





现在 ， 让 我 们 来 看 看 下 面 的 代码 。 


rf['correct'].sum()/rf['correct'].count() 


T 0.9555555555555556 
这 会 生成 图 1-37 的 输出 。 


在 前 面 的 几 行 代码 中 ， 我 们 建立 、 训 练 并 测试 了 一 个 分 类 器 ， ELS 
它 在 Iris 数据 集 上 具有 95% 的 准确 度 。 这 里 逐 项 分 析 每 个 步 又 。 在 代码 的 前 两 行 ， 我们 做 了 
几 个 导入 ， 前 两 个 是 从 scikit-leam， 值 得 庆幸 的 是 在 import 语句 中 其 名 字 缩 短 为 sklearn 
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了 。 第 一 个 导入 的 是 一 个 随机 森林 分 类 右 ， 第 二 个 导入 的 是 一 个 将 数据 分 成 训练 组 和 测试 组 
的 模块 。 出 于 茶 些 原因 ， 这 种 数据 切 分 在 机 器 学 习 应 用 的 构建 中 是 很 关键 的 。 我 们 将 在 以 后 
的 章节 讨论 这 些 ， 现 在 只 需要 知道 这 是 必需 的 。 模 块 train test split 还 会 打 乱 数据 的 
先后 顺序 ， 这 也 是 非常 重要 的 ， 因 为 原 有 的 顺序 可 能 包含 误导 实际 预测 的 信息 。 


在 这 本 书 中 ， 我 们 将 使 用 最 新 的 Python 版本， 撰写 本 
书 的 时 候 是 版 本 3.5。 如 果 你 使 用 的 Python 是 版 本 
2 .x， 你 需要 添加 额外 的 import 语 负 ， 让 整数 的 除法 
和 Python 3.X 中 的 一 样 运作 。 没 有 这 一 行 ， 你 的 准确 
度 将 被 报告 为 0， 而 不 是 95%。 该 行 是 : 


from future import division 

















o 





在 import 语句 之 后 ， 第 一 行 看 上 去 很 奇怪 的 代码 实例 化 了 我 们 的 分 关 磺 ， 这 个 例子 中 
征 随 机 森林 分 类 左 。 这 里 选择 一 个 使 用 10 个 决策 树 的 森林 ， 而 每 株 树 最 多 允许 五 层 的 判 
定 深度 。 如 此 实施 的 原因 是 为 了 避免 过 拟 合 (overfitting)， 我 们 将 在 后 面 的 章节 中 深入 讨 
论 这 个 话题 。 


Bs POKBUPATTGUEE f XABEERI y HÆ. HURAI iris 数据 框 包 含 四 个 特征 : TEXRITI v 
度 和 长 度 ， 以 及 花 革 的 客 度 和 长 度 。 这 些 特征 被 选中 并 成 为 独立 特征 矩阵 xXx。 最 后 一 列 ， 
iris KJAER, WARA T AEH y E. 

然后 这 些 被 传递 到 train test Split 方法 ,该 方法 将 数据 打 乱 并 划分 为 四 个 子 集 ， 
X train, X test, y train 和 y test. ZÆ test size RREAN 0.3, RARE 
数据 集 的 30%% 将 被 分 配给 X test 和 y test 部 分 ， 而 其 余 的 将 被 分 配 到 训练 的 部 分 ， 
X train Aly train. 


接 下 来 ， 使 用 训练 数据 来 拟 合 我 们 的 模型 。 一 旦 模型 训练 完毕 ， 再 通过 测试 数据 来 调 
用 分 类 需 的 预 训 方法 。 请 记 住 ， 测 试 数 据 是 分 类 融 没 有 处 理 过 的 数据 。 预 测 的 返回 结束 是 
预 估 标签 的 列表 。 然 后 ， 我 们 创建 对 应 实际 标签 与 预 估 标 签 的 数据 框 。 最 终 ， 我 们 加 和 正 
硝 的 预 负 次 数 ， 并 将 其 除 以 样 例 的 总 数 ， 从 而 看 出 预测 的 准确 率 。 现 在 让 我 们 看 看 哪些 特 
征 提 供 了 最 佳 的 辨别 力 或 者 说 预测 能 


f importances = clf.feature importances f names = df.columns[:4] 


























f std = np.std([tree.feature importances for tree in 
clf.estimators ], axis-0) 


zz — zip(f importances, f names, f std) 
zzs — sorted(zz, key-lambda x: x[0], reverse-True) 
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imps = [x[0] for x in zzs] 
labels - [x[1] for x in zzs] 
errs = [x[2] for x in zzs] 


plt.bar(range(len(f importances)), imps, color-"r", yerr-errs, 
align="center") 
plt.xticks (range (len(f_importances)), labels); 


从 图 1-38 H UE HE, 1E UTE TR YS B n] 2) T TNE E ATH, IRRI KEEA E 
对 于 区 分 iris 的 类 别 而 言 ， 具 有 更 好 的 辨别 力 。 不 过 ， 这 些 数 字 完 苋 来 日 哪里 ? 随机 森 
林 有 一 个 名 为 .feature importances 的 方法 ， 它 返回 特征 在 决策 树 中 划分 叶子 节点 的 
相对 能 力 。 如 果 一 个 特征 能 够 将 分 组 一 致 性 地 、 王 净 拆 分 成 不 同 的 类 别 ， 那 么 它 将 具有 很 
高 的 特征 重要 性 。 这 个 数字 的 总 和 将 始终 为 1。 也 许 你 注意 到 ， 在 这 里 我 们 已 经 包括 了 标 
准 雳 ， 它 将 有 助 于 说 明 每 个 特征 有 多 么 的 一 臻 。 这 是 如 此 生成 的 : 对 于 每 个 特征 ， 获 取 每 
10 标 决 策 树 的 特征 重要 性 ， 并 计算 标准 差 。 
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现在 ， 让 我 们 看 看 另 一 个 使 用 scikit-learn 的 例 于 。 现 在 ， 切 换 分 类 堪 并 使 用 文 持 同 量 
BL (SVM). 

from sklearn.multiclass import OneVsRestClassifier 

from sklearn.svm import SVC 

from sklearn.cross validation import train test split 


clf = OneVsRestClassifier (SVC(kernel-'linear')) 


X = df.ix[:,:4] 
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y = np.array(df.ix[:,4]).astype(str) 


X train, X test, y train, y test - train test split(X, y, 
test size-.3) 
clf.fit(X train,y train) 


y pred - clf.predict(X test) 


rf = pd.DataFrame(list(zip(y pred, y test)), columns-['predicted', 
'actual']) 

rf['correct'] = rf.apply(lambda r: 1 if r['predicted'] -- 
r['actual'] else 0, axis-1) 

rf 


前 面 的 代码 生成 图 1-39 的 输出 。 


| xw eren 
CNET LN CNN 
ee so [i 
a esee [esee 1 
a reverso lrovas | 
ona [revon [1 | 
s reverso [rvesser|r 
reverso renes o 
esee [rsen [I 
o reverso | reversion | | 
horeseess [rese 1 
aeos [revon I 
a [reverso rveseer|r | 
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图 1-39 





现在 ， 让 我 们 执行 下 面 这 行 代码 。 
rf['correct'].sum()/rf['correct'].count() 
前 面 的 代码 生成 图 1-40 的 输出 。 
这 里 ， 我 们 将 模型 切换 为 文 持 问 量 机 ， 而 没有 改变 代码 的 图 1-40 
本 质 。 唯 一 的 变化 是 引入 了 SVM 而 不 是 随机 森林 ， 以 及 实例 
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化 分 
林 分 


ARTE 4T VR CERSE y 需要 一 个 小 小 的 格式 改变 ， 这 是 因为 SVM ZG TA BED UR 
咎 那样 ， 将 这 些 标签 解释 为 NumPy 的 字符 串 )。 


这 些 仪 仪 是 scikit-learn 能 力 的 一 小 部 分 ， 但 它 应 该 可 以 说 明 这 个 伟大 的 工具 对 于 机 需 
学 习 应 用 而 言 强大 的 功能 和 力量 。 还 有 许多 其 他 的 机 器 学 习 库 , 我 们 在 这 里 没有 机 会 讨论 ， 
不 过 会 在 后 面 的 章节 中 探讨 ， 这 里 我 强烈 建议 ， 如 果 你 是 第 一 次 使 用 机 器 学 习 库 ， 而 义 想 
要 一 个 强大 的 通用 工具 ，scikit-learn 将 是 你 明智 的 选择 。 
1.2.5 HA 

Ta— V RAE RAE AA, 有 许多 可 用 的 选项 。 它 基本 上 取决 于 应 用 程序 的 性 
质 。 部 署 小 到 在 本 地 机 器 上 运行 cron 作业 ， 大 到 在 Amazon EC2 实例 上 部 闭 全 面 的 实现 。 

这 里 不 会 深入 具体 实施 的 细 方 ， 不 过 全 书 中 我 们 将 有 机 会 研究 不 同 的 部 署 实例 。 


1.3 设置 机 器 学 习 的 环境 


关 
关 























本 章 已 经 介绍 了 一 些 可 以 通过 pip (Python 的 包 管 理 器 ) 单独 安装 的 库 。 不 过 ,我 强烈 
建议 你 安装 预 打 包 的 解决 方案 ， 例 如 Continuum's Anaconda Python 发 行 版 。 这 是 一 个 单一 
的 可 执行 程序 ， 包 含 几乎 所 有 需要 的 软件 包 和 依赖 者 。 而 且 ， 因 为 这 个 发 行 版 是 针对 Python 
科学 栈 的 用 户 ， 它 本 质 上 是 一 个 一 天 永 逸 的 解决 方案 。 

Anaconda 也 包括 软件 包 和 党 理 器 ， 使 得 包 的 更 新 变 得 如 此 人 简单。 


只 需 简 单 地 键入 conda update «package name»; MA P SC s E E BU E EET 
定 版 本 。 











1.4 ”小结 


在 本 章 中 ,我 们 介绍 了 数据 科学 /机 右 学 习 的 工作 流程 。 我 们 学 习 了 如 何 让 数据 一 步 步 
地 通过 流水 线 的 每 个 阶段 ， 从 最 初 的 获取 一 直到 最 终 的 部 署 。 本 章 还 涵盖 了 Python 科学 栈 
中 最 重要 的 一 些 功 能 库 及 其 关键 特性 。 


现在 ， 我 们 将 利用 这 方面 的 知识 和 经 验 ， 开 始 创造 独特 的 、 有 价值 的 机 需 学 习 应 用 程 
序 。 在 下 一 重 ， 你 将 看 到 如 何 运用 回归 模型 来 友 现 一 个 便宜 的 公寓 ， 让 我 们 开始 吧 ! 
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在 上 一 章 中 ， 我 们 学 习 了 使 用 数据 的 基本 要 系 。 现 在 ， 我 们 将 运用 这 些 知识 ， 构 建 第 
一 个 机 右 学 习 的 应 用 程序 。 我 们 将 从 一 个 规模 很 小 ， 但 古 非 第 实际 的 例子 开始 :建立 一 个 
应 用 程序 来 识别 定价 较 低 的 公寓 。 

如 果 你 曾经 找 过 公 蜗 ， 你 就 会 明白 这 个 过 程 可 能 是 多 么 令 人 肖 丧 。 它 不 仅 耗 费时 间 ， 
而 且 即 使 当 你 友 现 一 个 自己 吝 欢 的 公 离 ， 你 怎么 知 违 它 就 是 合适 的 公 趣 ? 

你 可 能 在 心里 设 定 了 目标 预算 和 区 域 。 但 是 ， 如 采 你 和 我 是 同一 类 人 ， 那 么 你 也 许愿 
意 做 一 些 权 衡 。 例 如 ， 我 住 在 纽约 市 ， 那 么 靠近 地 铁 站 这 样 的 便利 设施 坚 无 疑问 是 一 个 很 





























进行 交换 ? 步行 到 火车 站 多 少 分 钟 ? 抵 得 过 走 上 楼 标 吗 ? 租房 的 时 候 ， 有 几 十 个 这 样 的 问 
题 需要 考虑 。 那 么 ， 如 何 使 用 机 副 学 习 来 帮助 我 们 进行 决策 呢 ? 

本 章 的 剩余 部 分 会 探索 这 一 扣 。 我 们 不 能 得 到 所 有 问题 的 舍 邓 (和 后 你 会 更 清楚 其 中 
的 原因 ), 不 过 在 本 章 的 结尾 ， 我 们 将 创建 一 个 应 用 程序 ， 使 得 找 公 蜗 这 个 问题 变 得 和 微 简 
单一 扩 。 

我 们 将 在 本 章 讨 论 以 下 主题 。 

获取 公寓 的 房 源 数 据 。 

。 检 查 和 准备 数据 。 

e 可 视 化 数据 。 

。 和 构建 回归 模型 。 

。 预 训 。 
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2.1 获取 公寓 房 源 数据 








在 20 世纪 70 年 代 初 ， 如 果 你 想 购买 股票 ， 就 需要 聘请 经 纪 人 ， 他 们 会 收取 你 将 近 1% 
的 固定 佣金 。 如 果 你 想 购 买 一 张 机 票 ， 你 需要 联系 旅行 社 代 理 ， 他 们 将 赚 取 大 约 7% 的 佣金 。 
如 果 你 想 出 售 一 间 房 子 ， 你 会 联系 一 个 房地产 代理 ， 他 们 赚 取 6% 的 佣金 。 在 2016 年 ， 你 
基本 上 可 以 免费 地 做 前 两 者 。 而 对 于 最 后 一 项 ， 情 况 仍 然 和 20 世纪 70 年 代 的 一 样 ， 保 持 
不 变 。 

为 什么 是 这 种 情况 ?更 重要 的 是 ， 这 些 与 机 器 学 习 有 什么 关系 ? 现实 是 ， 这 一 切 都 归 
结 于 数据 ， 以 及 谁 能 够 访问 它 。 

你 可 能 想象 着 通过 API 或 仆 取 房地产 网 站 , 束 能 够 很 容易 地 访问 珍贵 的 地 产房 源 数据 。 
你 错 了 ， 如 果 你 打算 遵守 这 些 网 站 的 条 球 和 条 件 的 话 。 房 地 产 数 据 受 到 房地产 经 纪 人 国家 
协会 (NAR) 的 严格 控制 ， 由 他 们 运行 多 项 房 源 服务 (MLS )。 这 是 一 种 聚合 房 源 数据 的 
服务 ， 只 有 经 纪 人 和 代理 商 可 以 使 用 它 ， 而 且 还 需要 花费 巨 资 。 所 以 ， 可 以 想象 ， 他 们 不 
太 和 希望 任何 人 都 能 大 量 地 下 载 这 些 数据 。 

这 是 不 幸 的 ， 因 为 开放 这 些 数 据 无 疑 会 众生 许多 有 价值 的 消费 者 应 用 程序 。 对 于 占 家 
姓 预 算 最 大 比重 的 购买 决策 而 言 ， 这 点 看 上 去 尤其 重要 。 


话 昌 如 此 ， 也 不 是 完全 没有 希望 。 昌 然 依据 条 款 所 言 ， 直 接 从 MLS 提供 商 获取 数据 是 
被 禁止 的 ， 但 是 我 们 可 以 利用 第 三 方 工 具 来 拉 取 数据 。 

现在 ， 我 们 来 看 一 个 有 用 的 工具 ， 它 可 以 帮助 我 们 获取 所 需 的 数据 。 
使 用 import.io 抓 取 房 源 数据 


有 许多 优秀 的 、 基 于 Python 的 库 用 于 抓 取 网 页 ， 包 括 requests, Beautiful Soup 和 Scrapy。 
我 们 将 探讨 其 中 的 一 些 ， 后 面 的 章节 还 会 讨论 更 多 。 为 了 达到 此 处 的 目的 ， 我 们 将 使 用 免 
ABRIR: 

Importio (http://www.import.io) 是 一 个 免费 的 、 基 于 Web 的 服务 ， 它 会 目 动 
抓 取 网 页 。 这 是 一 个 很 好 的 选择 ， 让 我 们 可 以 避免 从 头 开 始 创建 一 个 网 络 朴 虫 。 好 在 ， 写 
为 房地产 的 房 源 数据 提供 了 一 个 示例 API 接口 ， 数 据 来 自 Zillow.com。 


图 2-1 的 图 片 来 日 http://www.import.io/examples。 在 importio 的 搜索 框 中 
输入 Zillow.com, Z Zillow 数据 的 样 例 。 












































import .io 


ee 
iniit 


un 


| it 


How Paying to Get Rid of 
Ads Improved My Online 
Life 


Reddit 


图 2-1 


Life Hacker 


00920000 020 
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Enter a URL for a page with data or click on an example below 


v Wins 


- 
vE” ES 


Dribbble 





他 们 所 提供 的 数据 是 有 关 旧 人 金山 的 , 不 过 在 我 们 的 例子 中 将 使 用 纽约 。 为 了 更 换 城 市 ， 
需要 使 用 我 们 感 兴 趣 的 数据 所 在 的 网 址 ， 来 蔡 换 演示 所 提供 的 网 址 。 

为 了 实现 这 点 ， 我 们 可 以 打开 一 个 单独 的 浏览 器 选项 卡 ， 并 导航 到 Zillow.com。 在 那 
里 执行 一 个 公寓 搜索 。 让 我 们 将 公寓 搜索 限制 在 曼哈顿 地 区 ， 价 格 在 $15$00 到 $3000 之 间 。 


如 图 2-2 所 示 。 


一 旦 有 结 末 返回 ， 我 们 需要 从 浏览 匿 地址 栏 中 复制 Zillow.com 站 点 的 URL， 并 将 其 粘 


贴 到 之 前 选项 卡 中 importio 的 提取 框 中 。 
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复制 图 2-2 中 Zillow.com 地 址 栏 中 的 UREL。 并 将 其 粘贴 到 import.io 的 提取 框 中 ， 如 
图 2-3 所 示 。 


import .io 


Add or manage URLs 


Create a blank table D Undo | C Redo 


© Give feedback Helpv 


Download CSV Data view Website view 


ee 


44 W 95th St A... 10025 Apartment For $3,000/mo 3 bds - 1 ba · -.. 


323 W 30th St ... 10001 Apartment For... $1,830/mo Studio. 1ba... 


225 E 63rd St #. 10065 Apartment For... $2,960 /mo Studio . 1 ba . .… 


227 Lenox Ave .. 10027 Apartment For... $2,900/mo 2 bds - 1ba--.. 


For Rent 1$2,995+ 


304 W 92nd St .. 10025 Apartment For ... $2,295/mo Studio - 1 ba - .. 


44 W 95th St A.. 


323 W 30th St .… 


Add column 


425 E 80th, Ma... 


304 W 92nd St .. 





图 2-3 
单 击 左上 角 的 提取 数据 (Extract Data) 按钮 , 你 将 看 到 一 个 结果 表 ， 
现在 ， 我 们 可 以 通过 单 击 “ 下 载 CSV”(Download CSV) 按钮 ， 


只 显示 你 想 要 的 数据 。 


轻松 地 下 载 这 些 数据 。 


弹出 的 对 话 框 会 问 我 们 需要 下 载 多 少 页 ， 从 结 打 页 可 以 看 出 在 Zillow 的 搜索 返回 了 2640 
条 结果 ， 我 们 需要 下 载 106 页 来 获得 整个 数据 集 。 而 Importio 仅仅 允许 我 们 下 载 20 页 ， 
现在 也 只 能 如 此 了 。 


2.2 检查 和 准备 数据 





我 们 现在 有 一 个 包含 500 套 公 寓 的 数据 集 。 来 看 看 其 中 有 什么 
使 用 pandas 导入 数据 。 


import pandas as pd 





。 首 先 在 Jupyter 记事 本 


import re 
import numpy as np 
import matplotlib.pyplot as plt 


pit.style.use('ggplot') 
$Smatplotlib inline 


30) 
100) 


pd.set option("display.max columns", 
pd.set option("display.max colwidth", 
pd.set option("display.precision", 3) 
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# Use the file location of your Import.io csv 
CSV PATH - r"/Users/alexcombs/Downloads/magic.csv" 


df = pd.read csv(CSV PATH) 
df.columns 


上 述 代码 生成 图 2-4 中 的 输出 。 


Index([u'routablemask link', u'routablemask link/ text', 
u'routablemask link/ title', u'routablemask link numbers', 
u'routablemask content', u'imagebadge value', 
u'imagebadge value numbers', u'routable link', u'routable link/ text', 
u'routable link/ title', u'routable link numbers', u'listingtype value', 


u'pricelarge value', u'pricelarge value prices', u'propertyinfo value', 
u'propertyinfo value numbers', u'fineprint value', 
u'fineprint value numbers', u'tozcount number', u'tozfresh value', 
u'tablegrouped values', u'tablegrouped values prices', u' PAGE NUMBER'], 
dtype-'object') 





2-4 
最 后 一 行 dfcolumns 为 数据 提供 了 列 标题 的 输出 。 此 外 ， 让 我 们 使 用 af .head () .T Æ 


看 数据 的 东 些 样本 。 在 行 结束 处 的 .T 语法 将 转 置 我 们 的 数据 框 并 垂直 地 显示 它 ， 如 疼 2-5 
Bras. 
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我 们 已 经 可 以 看 出 数据 有 一 些 缺 失 值 (NaN)。 需 要 多 个 操作 来 标准 化 此 数据 。 数 据 集 
中 的 列 或 者 说 是 图 2-5 中 转 轩 后 的 行 ) 衣 示 了 每 个 Zillow 房 源 的 单项 数据 。 看 起 来 似乎 
有 两 种 类 型 的 房 源 一 一 一 种 关 型 是 单个 单元 ， 而 万 一 种 类 型 是 多 个 单元 。 


这 两 种 类 型 可 以 在 图 2-6 中 看 到 。 








reine lm mm 
pier va he lm 
pronare vave proes en le 


ponens hh 
we femas oo JMN 
moma e nh 
本 


Mozfresh value | | value 


1 Bedrooms 3, 0001.05a2750sqft; 2Bedrooms 3,000 
-一 


tablegrouped values prices |3000; 3000 





2-6 
这 两 个 房 源 对 应 于 在 Zillow.com 上 所 看 到 的 图 
像 ? 如 Ea 2-7 所 示 o : ag FOR RENT 


203 Rivington St, New York, NY 


拆 分 这 些 的 天 键 是 listingtype value 这 个 
列 头 。 我 们 将 数据 拆 分 为 单一 的 单元 ，Apartment for 1 Bedrooms | 750 sqf 
2 Bedrooms Í -- sqft 

Rent， 以 及 多 个 单元 ，Apartments for Rent: 





2) 280 E 2nd St # 604, New York, NY 
€ APARTMENT FOR RENT 


# multiple units $2,850/mo 


mu = 1 bd* 1 ba 





df[df['listingtype value'].str.contains('Apartm 
ents For')] 22 


# single units 
= df[df['listingtype value'].str.contains('Apartment For')] 


现在 来 看 看 每 种 房 源 类 型 的 数量 。 


len (mu) 
上 述 代 人 码 生 成 以 下 输出 。 
161 


len(su) 
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上 述 代 码 生 成 以 下 输出 。 

339 

由 于 大 多 数 房 源 属于 单一 单元 的 类 型 ， 我 们 现在 将 从 此 开始 。 

接 下 来 ， 我 们 需要 将 数据 格 陈 化 为 标准 结构 。 例 如 ， 至 少 需要 为 卧室 数 、 浴 室 数 、 平 
方 天 尺 和 地 址 各 准备 一 列 。 

从 之 前 的 观察 中 可 以 有 发现， 我 们 已 经 有 一 个 清晰 的 价格 列 ， 那 就 是 
pricelarge value prices。 幸 运 的 是 ， 该 列 中 没有 缺失 值 ， 因 此 我 们 不 会 因为 缺少 
数据 而 丢失 任何 的 房 源 。 

卧室 和 浴室 的 数量 以 及 平方 区 矿 将 需要 一 些 解析 ， 因 为 它们 全 都 挤 在 单一 的 列 中 。 让 
我 们 解决 这 个 问题 。 

先 来 看 一 下 该 列 。 

su['propertyinfo value'] 


上 述 代 码 生 成 如 图 2-8 所 示 的 输出 。 











2 bds * 

1 bd * 

1 bd * 

1 bd * 

Studio * 1 ba * 540 sqft * 2.00 ac lot * Built 


2 bds * 

Studio * 

1 bd 。 

Studio * 

Studio * 1 ba * Built 

Studio * ba * 485 sqft * Built 
2 bds * 1 ba * 600 

Studio * ba * 522 sqft * Built 
Studio * ba * 480 sqft * Built 
Studio * 

Studio 。 

sqft * Built 





2-8 





4 EX. Hoy iced B SOIRS ARIS LS DUAE OUFE B AUI HS 
娠 。 在 我 们 继续 解析 之 前 ， 先 来 检验 一 下 这 个 假设 。 


# 检查 没有 包含 'bd' 或 'Studio' 的 行 数 
len(su[-(su['propertyinfo value'].str.contains('Studio')N 
Isu['propertyinfo value'].str.contains('bd'))]) 


上 述 代码 生成 以 下 输出 。 
0 
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现在 来 看 看 下 面 几 行 代码 。 

# 检 查 没 有 包含 'ba ' 的 行 数 

len(su[^(su['propertyinfo value'].str.contains('ba'))]) 

上 述 代 码 生 成 以 下 输出 。 

6 

看 来 有 几 行 缺少 浴室 数量 的 数据 。 出 现 这 种 情况 的 原因 有 多 种 ， 我 们 可 以 使 用 一 些 方 
法 来 解决 这 个 问题 。 一 种 吏 是 填充 或 插 补 这 些 缺 失 的 数据 点 。 

关于 缺失 数据 的 主题 很 可 能 讨论 一 整 章 甚 至 是 一 本 书 ， 这 里 我 建议 投入 一 些 时 间 来 理 
解 这 个 课题 ， 它 是 建 模 过 程 中 一 个 关键 的 组 成 部 分 。 然 而 ， 这 并 非 此 处 讨论 的 主要 目的 ， 
所 以 我 们 将 假设 数据 的 缺失 是 随机 的 ， 即 使 删除 这 些 没有 浴室 信息 的 房产 ， 也 不 会 使 得 我 
们 的 样本 产生 不 恰当 的 偏 问 。 

# 选 择 拥 有 浴室 的 房 源 ” 


no baths = su[-(su['propertyinfo value'].str.contains('ba'))] 























# 再 排除 那些 缺失 了 浴室 信息 的 房 源 


sucln = su[-su.index.isin(no baths.index)] 
MERATE VALERE AGIT p CRT S f eh s 
# 使 用 项 目 符 号 进行 切 分 


def parse info(row): 





if not 'sqft' in row: 
br, ba - row.split('')[:2] 
sqft - np.nan 
else: 
br, ba, sqft - row.split('.')[:3] 
return pd.Series(('Beds': br, 'Baths': ba, 'Sqft': sqft]) 


attr = suclin['propertyinfo value'].apply(parse info) 
attr 
上 述 代码 生成 图 2-9 的 输出 。 


这 里 我 们 做 了 些 什么 ? RIJE propertyinfo value 列 上 运行 了 apply 函数 。 然 
后 访 操 作 返 回 一 个 数据 框 ， 其 中 每 个 公寓 属性 都 会 成 为 单独 的 列 。 在 最 终 完 成 之 前 ， 还 有 
几 个 额外 的 步骤 。 我 们 需要 在 取 值 中 删除 字符 串 (bd. ba 和 sqft)， 并 且 需 要 将 这 个 新 
的 数据 框 和 原始 的 数据 进行 连接 。 让 我 们 现在 束 这 么 做 吧 。 











QD 这 行 代码 中 ， 作 者 使 用 的 注释 和 变量 名 令 人 困惑 ， 但 是 最 终 效 来 是 一 样 的 。 


# 在 取 值 中 将 字符 串 删 除 


attr cln = attr.applymap(lambda x: x.strip().split(' 


isinstance(x,str) else np.nan) 


attr cln 


上 述 代码 生成 图 2-10 的 输出 。 












| IRSE 卧室 | 平方 英尺 
1 ba 
Zea levas |oesam 
a fiee [evoolvan — 






B [rea js [nan 

p [rea fesas [nan 
jo frea [ee fnan E 

he frea fases pe. 

ere [sees i 
me [ee fnan e TS 
e [ie [suse] wv 








图 2-9 图 2-10 
让 我 们 来 看 看 下 面 的 代码 。 


sujnd = sucln.join(attr cln) 


sujnd.T 
上 述 代码 生成 图 2-11 的 输出 。 
到 了 这 个 时 刻 ， 各 方面 的 数据 集 开 始 红 


TT e 
Bp op o 
a Jj p e pos 
NNI 71770 
eh he C 
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') [0] if 






荡 集 在 一 起 了 。 我 们 可 以 基于 卧室 的 数量 、 洽 室 的 


数量 和 和 面积 的 平方 现 尺 数 ， 来 测试 天 于 公 引 价值 的 假设 。 但 古 ， 正 如 行业 专家 所 说 ， 房 地 产 


的 区 域 最 为 关键。 
如 果 可 能 ， 我 们 还 将 尝试 提取 楼 层 的 信息 。 这 
面 跟 随 一 个 字母 ， 而 该 数字 就 表示 建筑 物 的 楼 层 。 


# parse out zip, floor 
def parse addy (r): 
SO zip = 


re.search(', NY(\d+)', r) 


so flr = re.search(' (?:APT|#) \s+(\d+) [A-Z]-*, ' 


if so zip: 
zipc = so zip.group(1) 
else: 


让 我 们 采取 和 之 前 相同 的 属性 解析 方法 ， 并 将 其 
里 我 们 假设 


应 用 到 公寓 的 地 址 上 。 
一 个 模式 ， 其 中 一 个 数字 后 


; T) 
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ZIPC = np.nan 
if so flr: 
flr = so flr.group(1) 
else: 
flr = np.nan 
return pd.Series(('Zip':zipc, 'Floor': flr}) 


flrzip - sujnd['routable link/ text'].apply(parse addy) 


suf = sujnd.join(flrzip) 


http://www.zillow.com/homedetails/9- | http://www.zillow.com/homedetails/710- |http://www.zillow.com/homedetails/413- 
routablemask link E-129th-St-1-New-York-NY- Riverside-Dr-APT-2C-New-York-NY- E-84th-St-APT-8-New-York-NY- 
10035/2100761096 zpid/ 10031/124451755 zpid/ 10028/2100761260 zpid/ 


routablemask link/ text NN | 9 photos 5 photos 
9 photos 5 photos 


http://www.zillow.com/homedetails/413- 
Riverside-Dr-APT-2C-New-York-NY- E-84th-St-APT-8-New-York-NY- 
10031/124451755 zpid/ 10028/2100761260 zpid/ 


710 Riverside Dr APT 2C, New York, 413 E 84th St APT 8, New York, 
9 E 129th St 4 1, New York, NY10035 NY10031 NY10028 
9 E 129th St # 1, New York, NY Real {|710 Riverside Dr APT 2C, New York, NY |413 E 84th St APT 8, New York, NY Real 
Estate Real Estate Estate 


9; 129; 1 710; 2 413; 84; 8 


m 


tozcount number 





图 2-11 
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上 述 代码 生成 图 2-12 的 输出 。 


http://www.zillow.com/homedetails/9- |http://www.zillow.com/homedetails/710- |http://www.zillow.com/homedetails/413- 
routablemask link E-129th-St-1-New-York-NY- Riverside-Dr-APT-2C-New-York-NY- E-84th-St-APT-8-New-York-NY- 
10035/2100761096 zpid/ 10031/124451755 zpid/ 10028/2100761260 zpid/ 


Kumsemei un en lm mem 
masemekmuwe us A NS 
usenaskmnm hh 
um en jw 9 
aaa mm lm mm 
eee vie mesas hh hh 


http://www.zillow.com/homedetails/9- | http://www.zillow.com/homedetails/7 10- |http://www.zillow.com/homedetails/413- 
routable link E-129th-St-1-New-York-NY- Riverside-Dr-APT-2C-New-York-NY- E-84th-St-APT-8-New-York-NY- 
10035/2100761096 zpid/ 10031/124451755 zpid/ 10028/2100761260 zpid/ 


710 Riverside Dr APT 2C, New York 413 E 84th St APT 8, New York 
i 129th St # 1, York, NY1 j ' ' 
routable link/ text 9 E 129th St New York, NY10035 NY10031 NY10028 
. : 9 E 129th St 4 1, New York, NY Real |710 Riverside Dr APT 2C, New York, NY |413 E 84th St APT 8, New York, NY Real 
routable link/ title 
Estate Real Estate Estate 


pooroo vane pue [um bo ooo  — Em — —  — — 


propertyinfo value 1 bd*1 ba 2 bds * 2 ba * 1,016 sqft Studio * 1 ba 


fineprint vale NR 
fnepitveue numbers — NN Re 
tozcount number PP 
tablegroupedvalues [NaN Re 
Rabegruped vales prices NN 
和 





Z| 2-12 


正如 你 所 看 到 的 ， 当 楼 层 和 邮编 信息 出 现 的 时 候 ， 我 们 能 够 成 功 地 解析 出 它们 。 这 
使 我 们 从 333 个 房 源 中 获得 了 320 个 市 有 邮政 编码 信息 的 房 源 和 164 个 带 有 楼 层 信息 的 
房 源 。 


最 终 进行 一 点 清理 ， 然 后 我 们 即将 开始 检查 这 个 数据 集 。 


# 我 们 将 数据 减少 为 所 感 兴 趣 的 那些 列 
sudf = suf[['pricelarge value prices', 'Beds', 'Baths', 'Sqft', 'Floor', 


'Zip']] 
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# 我 们 还 会 清理 奇怪 的 列 名 ， 并 重 置 索引 
sudf.rename(columns-('pricelarge value prices':'Rent'], inplace-True) 
sudf.reset index(drop-True, inplace-True) 


sudf 


上 述 代码 生成 图 2-13 的 输出 。 


TT Tee 
b jus fi [nan wn [roo 
peel fe ep [uer 


Z| Z 





2.2.1 分 析 数 据 


到 了 这 个 阶段 ， 数 据 已 经 是 我 们 分 析 时 所 需要 的 格式 了 。 让 我 们 从 一 些 总 体 的 统计 数 
据 分 析 开 始 。 

sudf.describe() 

上 述 代码 生成 图 2-14. 的 输出 。 

这 里 可 以 看 到 租金 的 统计 细 分 。 不 要 未 记 我 们 从 Zillow 的 原始 数据 中 ， 只 选择 了 每 月 
价格 在 1500 到 3000 美元 之 间 的 公寓 。 在 这 里 无 法 看 到 的 是 卧室 和 浴室 的 平均 数量 ， 或 者 
楼 层 的 平均 数 。 导 致 这 个 现象 的 问题 有 两 个 。 第 一 个 问题 涉及 卧室 。 我 们 需要 所 有 的 数据 
都 为 数值 型 才能 获得 统计 。 可 以 将 工作 室 公 寓 认 定 为 一 个 零 卧 室 的 公寓 《实际 也 确实 如 此 )， 
来 解决 这 个 问题 。 


# 我 们 将 出 现 的 'Studio' 蔡 换 为 0 
sudf.loc[:,'Beds'] = sudf['Beds'] .map (lambda x: 0 if 'Studio' in x else x) 











sudf 
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上 述 代 码 生 成 图 2-15 的 输出 。 










| 石上 [uan 
"MOON QNIN 730 7730773 
[| sme | Bee fe pe how 
i pem un jun [oes 
平均 信 |2492.627628 || 9 |2500| — |t — |NaN fe — [10035 
epee TR d 
最 小 值 | 1500.000000 | 5 |2490|1 |1 [Nan |4 — [10036 

站 


2525.000000 
2800.000000 


图 2-14 图 2-15 





这 解决 了 第 一 | 问题 ， 但 我 们 还 有 另 一 个 问 «class 'pandas.core.frame.DataFrame'- 
z : Int64Index: 333 entries, 0 to 332 
题 。 任何 需要 统计 数据 KIIDA 页 是 数值 类 型 。 正如 Data columns (total 6 columns): 

Rent 333 non-null float64 
你 在 图 2-16 的 截图 所 见 ， 情况 并 非 如 此 。 Beds 333 non-null object 
Baths 333 non-null object 
sudf.info() S 可 芋 七 108 non-null object 
Floor 164 non-null object 
a 、 ^ Zip 320 non=null object 
上 述 代码 生成 图 2-16 的 输出 。 re float64(1), mi pe ann 





memory usage: 18.24 KB 


我 们 可 以 通过 更 改 数 据 类 型 来 解决 这 个 问题 ， 
如 下 面 的 代码 所 示 。 
# 让 我 们 解决 列 中 数据 类 型 的 问题 
sudf.loc[:,'Rent'] = sudf['Rent'].astype (int) 
sudf.loc[:,'Beds'] = sudf['Beds'].astype (int) 


图 2-16 


# 存在 半 间 浴室 的 情况 ， 因 此 需要 浮 点 
sudf.loc[:,'Baths'] = sudf[' RR 


HFE Nans, REFAN, (BEATES AA 
sudf.loc[:,'Sqft'] = sudf£['Sqft'].str.replace(',','") 


sudf.loc[:,'Sqft'] = sudf£['Sqft'].astype(float) 
sudf.loc[:,'Floor'] = sudf['Floor'].astype(float) 


让 我 们 执行 下 面 的 这 行 代 码 并 看 看 结果 如 何 。 
sudf.info() 


上 述 代 码 生 成 图 2-17 的 输出 。 
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让 我 们 执行 下 面 的 代码 行 ， 以 便 得 到 最 终 的 统计 数据 。 
sudf.describe() 


上 述 代码 生成 图 2-18 的 输出 。 





Int64Index: 333 entries, 0 to 332 
Data columns (total 6 columns): 


«class 'pandas.core.frame.DataFrame'- mean 


Rent 333 non-null int64 ooo |1.00 280.00 
Beds 333 non-null int&é4 | 

Baths 333 non-null floaté4 25% |2200.00 ooo |1.00 | 447.50 200 | 
Sqft 108 non-null float&4 50% |4.00 1.00 512.00 
Min dottor 50% |2525.00|1.00 |100 |51200 |400 — 
zip 320 non-null object 75% |2800.00 1.00 |t00 | 600.00 
dtypes: float64(3), int64(2), object(1) | 

Mincry nénvar I Ro KR max |3000.00|3.00 |2.00 [1090.00 |1107.00 


2-17 图 2-18 


租金 、 卧 室 、 洽 室 和 平方 贡 扩 的 数字 都 看 起 来 不 错 ， 但 是 Floor 楼 层 这 一 列 似乎 有 些 
问题 。 在 纽约 ， 确 实 有 很 多 非常 蜗 的 建筑 ， 但 我 想 没 有 超过 1000 ZI]. 

快速 看 过 数据 之 后 ， 你 会 发 现 APT 1107A 给 了 我 们 这 个 结果 。 很 可 能 ， 这 是 一 个 11 
层 的 公寓 ， 但 是 为 了 安全 性 以 及 一 致 性 ， 我 们 会 放 径 这 个 房 源 。 笠 运 的 是 ， 这 是 唯一 超出 
30 楼 的 房 源 ， 所 以 我 们 的 数据 仍然 是 完好 的 状态 。 


# 索 引 标 号 318 是 有 问题 的 房产 ， 这 里 放弃 它 
sudf = sudf.drop([318]) 














mean 


sudf.describe() std | 

上 述 代 码 生 成 图 2-19 的 输出 。 m 

我 们 的 数据 现在 看 起 来 不 错 ， 接 下 来 继续 分 析 的 “| |so% |2s27soj100 |100 [512.00 |400 - 
步骤。 让 我 们 生成 数据 的 透视 图 ， 首先 通过 邮政 编码 ATL UC 
和 卧室 数量 来 检视 价格 的 情况 Pandas 有 一 = 
个 .pivot table () 图 数 ， 使 这 个 操作 变 得 很 容易 。 2-19 

sudf.pivot table('Rent', 'Zip', 'Beds', aggfunc-'mean') 

上 述 代 码 生 成 图 2-20 的 输出 。 

此 操作 可 让 我 们 按照 邮政 编码 来 全 看 平均 价格 。 正 如 你 所 见 ， 随 看 房间 数量 的 增加 ， 
我 们 将 看 到 越 来 越 少 的 房 源 ，NaN 值 就 是 很 好 的 证 明 。 为 了 进一步 探究 其 原因 ， 我 们 可 以 
基于 房 源 的 数量 进行 透视 。 
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sudf.pivot table('Rent', 'Zip', 'Beds', aggfunc-'count') 


上 述 代码 生成 图 2-21 的 输出 。 
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2-20 图 2-21 


从 图 2-21 可 以 看 出 ， 根 据 邮 政 编码 和 卧室 数量 的 维度 来 分 机 ， 我 们 的 数据 是 牧 蔚 的 。 
这 是 不 位 的 ， 理 想 情 况 下 ， 我 们 应 该 需要 更 多 的 数据 。 尽 管 如 此 ， 我 们 仍然 可 以 进行 分 析 。 


现在 要 通过 可 视 化 的 方式 来 检视 手头 的 数据 。 
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2.2.2 可 视 化 数据 

由 于 目前 的 数据 是 基于 邮政 编码 的 ， 因 此 最 好 的 可 视 化 方法 是 使 用 热 图 ”。 如 果 你 不 熟悉 
热 图 ， 那 么 简单 地 来 理解 它 只 是 按照 色谱 来 表示 数据 的 可 视 化 。 现 在 ， 让 我 们 使 用 名 为 fo01ium 
的 Python 映 DI 库 来 实 现 这 - 点 
(https://github.com/python-visualization/folium). 

由 于 缺少 包含 两 到 三 间 卧 室 的 公寓 ， 让 我 们 纵 减 数据 集 ， 聚 焦 到 工作 室 和 一 间 卧 室 的 房 源 。 

su lt two = sudf[sudf['Beds']«2] 

现在 我 们 将 继续 创建 可 视 化 。 


import folium 











map — folium.Map(location-[40.748817, -73.985428], zoom start-13) 
map.geo json(geo path-r'/Users/alexcombs/Downloads/nyc.json', 
data-su lt two, 
columns-['Zip', 'Rent'], 

key on-'feature.properties.postalCode', 

threshold scale-[1700.00, 1900.00, 2100.00, 2300.00, 2500.00, 

2750.00], 

fill color-'YlOrRd', fill opacity-0.7, line opacity-0.2, 
legend name-'Rent ($)', 
reset-True) 


map.create map(path-'nyc.html') 

上 述 代码 生成 图 2-22 的 输出 。 

这 里 及 生 了 很 多 事情 ， 所 以 让 我 们 一 步 一 步 来 分 机 。 导 入 folium 后 ， 我 们 创建 了 一 
个 .Map () 对象。 为 了 使 地 图 后 中 ， 还 需要 传 入 坐标 和 纵 放 级 别 。 我 在 Google 上 搜索 了 帝国 大 
厦 的 坐标 〈 你 需要 使 用 经 度 的 正 负 符 号 )， 并 调整 缩放 ， 使 项 国 大 厦 出 现在 我 想 要 居中 的 地 方 。 

下 一 行 代 码 需要 一 个 称 为 GeoJSON 文件 的 东西 。 这 是 一 个 表示 地 理 属 性 的 开放 格式 
来 。 通 过 搜索 NYC GeoJSON 文件 ， 我 找到 了 一 个 ， 特 别 是 它 还 包含 了 邮政 编码 的 映射 。 
一 旦 传 入 了 GeoJSON 文件 与 邮政 编码 之 后 ， 你 还 需要 传 入 数据 框 。 

然后 你 需要 引用 键 列 〈 在 这 个 例子 中 为 zip) 以 及 你 希望 用 于 热 图 的 列 。 在 我 们 的 例 
子 中 将 使 用 租金 的 中 位 数 。 其 他 选项 用 于 确定 颜色 的 调 色 板 、 颜 色 改 变 的 取 值 以 及 茶 些 用 
































QFP: 热 图 可 以 帮助 显示 基于 地 理 位 置 的 信息 ， 所 以 适合 邮编 相关 的 分 析 。 


2.3 对 数据 建 模 51 


于 调整 图 例 和 着 色 的 其 他 参数 。 最 后 一 行 代码 确定 了 输出 文件 的 名 称 。 


bes New York 


1,7001,9002,1002,3002,500 2,750 





7. Rent(%) 
PI UU 


s 1 ra 
Leaflet | Map data (c) OpenStreetMap contributors 


2:95 


如 果 你 在 本 地 机 器 上 使 用 这 些 代码 ， 你 可 能 会 在 
Chrome 浏览 器 中 遇 到 一 个 问题 。 阴 影 部 分 似乎 不 正 
"t. Chrome 认为 其 是 跨 域 请 求 ， 因 此 拒绝 执行 它 ， 
而 且 由 于 此 ， 你 将 无 法 看 到 热 图 的 党 加 部 分 。、Internet 
Explorer 和 Safari 浏览 器 应 该 可 以 正常 显示 。 





随 着 热 图 完成 , 我 们 可 以 感受 到 哪些 地 区 有 更 局 的 或 更 低 的 租金 。 如 条 你 租房 的 时 候 关 注 
东 个 特定 的 区 域 ， 这 将 很 有 帮助 。 不 过 ， 让 我 们 继续 使 用 回归 建 模 ， 进 行 更 为 深入 的 分 析 。 


2.3 对 数据 建 模 





让 我 们 开始 使 用 一 个 和 两 个 卧室 的 数据 集 。 我 们 将 观察 邮政 编码 和 卧室 数量 对 于 出 租价 
格 的 影响 。 这 里 将 使 用 两 个 包 : 第 一 个 是 statsmodqels， 我 们 在 前 一 章 简要 讨论 过 ， 而 第 二 
^"&: patsy (https://patsy.readthedocs.org/en/latest/index.html) 和 
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statsmodels 搭档 使 用 ,使 工作 更 轻松 。 在 运行 回归 的 时 候 ，Patsy 让 我 们 可 以 使 用 R JA 
FE I] AA. 


让 我 们 现在 开始 吧 。 


import patsy 
import statsmodels.api as sm 


f = 'Rent ~ Zip + Beds' 
y, X = patsy.dmatrices(f, su lt two, return type-'dataframe') 


results = sm.OLS(y, X).fit() 
print (results .summary ()) 


上 述 代码 生成 图 2-23 的 输出 。 


OLS Regression Results 


Dep. Variable: R-squared: 

Model: Adj. R-squared: 
Method: Least Squares F-statistic: 

Date: Sat, 31 Oct 2015 Prob (F-statistic) 
Time: 13:44:15 Log-Likelihood: 
No. Observations: 

Df Residuals: 

Df Model: 


[95.0$ Conf. Int.] 


Intercept 

Zip[T.10002] 
Zip[T.10003] 
Zip[T.10004] 
Zip[T.10005] 
Zip[T.10006] 
Zip[T.10009] 
Zip[T.10010] 
Zip[T.10011] 
Zip[T.10012] 
Zip[T.10013] 
Zip[T.10014] 
Zip[T.10016] 
Zip[T.10017] 
Zip[T.10019] 
Zip[T.10021] 
Zip[T.10022] 
Zip[T.10023] 
Zip[T.10024] 
Zip[T.10025] 
Zip[T.10026] 
Zip[T.10027] 
Zip[T.10028] 
Zip[T.10029] 
Zip[T.10033] 
Zip[T.10035] 
Zip[T.10036] 
Zip[T.10037] 
Zip[T.10038] 
Zip[T.10040] 
Zip[T.10065] 
Zip[T.10075] 
Zip[T.10280] 
Zip[T.11229] 


Omnibus: R Durbin-Watson: 
Prob(Omnibus): 。 Jarque-Bera (JB): 
Skew: ° Prob(JB): 
Kurtosis: 





Z| 2-23 
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通过 这 几 行 代码 ， 我 们 刚刚 运行 了 第 一 个 机 器 学 习 算 法 。 
| 虽然 大 多 数 人 不 倾向 于 将 线性 回归 视 为 机 器 学 习 ， 但 
它 实 际 上 就 是 机 器 学 习 。 线 性 回归 是 一 种 监督 式 的 机 
器 学 习 。 在 这 种 情况 下 ， 监 督 只 是 意味 着 我 们 为 训练 
集 提 供 了 输出 值 “。 








ME, 让 我 们 解释 这 其 中 友 生 的 事情 ,在 引入 包 之 后 , 有 两 行 和 patsy 模块 相关 的 代码 。 
第 一 行 是 我 们 将 要 使 用 的 公式 。 在 左手 边 ( 波 浪 写 之 前 ) 是 反应 或 因 变 量 ， 也 就 是 Rent。 
在 右手 边 ， 是 独立 或 预测 变量 ， 就 是 zip 和 Beds。 这 个 公式 表示 ， 我 们 想 知道 邮政 编码 
和 卧室 数量 将 如 何 影 啊 出 租价 格 。 


然后 我 们 的 公 陈 将 和 包含 相应 列 名 的 数据 框 一 起 ,传递 给 patsy.dmatrices () 。 然 
后 设置 Patsy， 让 和 它 返 回 一 个 数据 框 ， 其 中 和 X 惩 阵 由 预测 变量 组 成 , 而 y 问 量 由 啊 应 变量 组 
成 。 这 些 将 被 传递 给 sm.0LS () ， 之 后 调用 .fit () 来 运行 我 们 的 模型 。 最 后 ， 打 印 出 模 
nz. 


如 你 所 见 ， 输 出 的 结果 提供 了 大 量 的 信息 。 让 我 们 从 最 上 面 的 部 分 开始 吧 。 可 以 看 到 
模型 包括 了 262 个 观察 样本 ， 调 整 后 的 R2 为 0.283，F-statistic 为 1.21e-10, Ħ 
有 统计 的 显 着 性 。 这 里 显 音 性 是 指 什么 ? 它 意 味 着 我 们 所 创建 的 模型 ， 仅 仅 使 用 卧室 数量 
和 邮政 编码 ， 就 已 经 能 够 解释 约 三 分 之 一 的 价格 差异 。 这 是 一 个 满意 的 结果 吗 ? 为 了 更 好 
地 回答 这 个 问题 ， 让 我 们 来 看 看 输出 的 中 间 部 分 。 

中 间 部 分 为 我 们 提供 了 模型 中 每 个 自 变 量 的 有 关 人 信息。 从 左 到 右 ， 我 们 可 以 看 到 以 下 
信息 : 变量 、 变 量 在 模型 中 的 系数 、 标 准 误差 、1 统计 量 、t 统 计量 的 p 值 ， 以 及 95% 的 置 
fei X [R] « 

这 一 切 告 诉 我 们 什么 ”如果 看 p 值 这 一 列 ， 我 们 可 以 确定 独立 变量 从 统计 的 角度 来 看 
是 否 具 有 意义 。 在 回归 模型 中 具有 统计 学 意义 ， 这 意味 着 一 个 独立 变量 和 响应 变量 之 间 的 
关系 不 太 可 能 是 偶然 发 生 的 。 通 第 ， 统 计 学 家 使 用 0.05 的 p 值 来 确定 这 一 点 。 一 个 0.05 
的 p 值 意 味 着 我 们 看 到 的 结果 只 有 $% 的 可 能 性 是 偶然 发 生 的 。 就 这 里 的 输出 而 言 ， 卧 室 的 
数量 显然 是 有 意义 的 。 那 邮政 编码 怎么 样 呢 ? 


首先 要 注意 的 是 ， 我 们 的 截 距 代 表 了 10001 的 邮政 编码 。 建 立 线性 回归 模型 的 时 候 ， 
是 圾 要 截 距 的 。 截 距 就 是 回归 线 和 y 轴 交叉 的 地 方 。Statsmodels 会 目 动 选择 一 个 预测 变 





















































DFPE: 或 者 说 是 目标 值 。 
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量 作 为 截 距 。 在 这 里 ， 它 决定 使 用 纽约 的 切尔西 地 区 (10001) 7. 
就 像 卧室 的 数量 ， 截 距 在 统计 上 是 显 着 的 。 但 是 ， 其 他 邮政 编码 又 怎么 样 呢 ? 


在 大 多 数 情况 下 , 它们 并 不 显著 。 不 过 ， 让 我 们 来 看 看 显著 的 几 个 。 邮 政 编 码 一 -10027、 
10029 和 10035 一 一 都 是 非 癌 显著 的 ， 并 且 都 具有 很 高 的 负 置 信 区 间 。 这 告诉 我 们 ， 和 切 
尔 西 地 区 一 个 类 似 的 公寓 相 比 ， 这 些 地 区 往往 会 有 较 低 的 租金 价格 。 


因为 切尔西 被 认为 是 纽约 的 一 个 时 尚之 地 , 而 另 三 个 街区 都 在 哈 林 区 “及 其 附近 一 一 它 
们 当然 不 会 被 认为 是 时 尚 的 地 方 一 一 模型 与 我 们 对 真实 世界 的 直觉 ， 是 相 吻 合 的 。 

现在 让 我 们 使 用 这 个 模型 进行 一 些 预 测 。 
2.3.1 预测 

假设 根据 前 面 的 分 析 , 我 们 对 三 个 特定 的 邮政 编码 感 兴趣 : 10002. 10003 和 10009。 
我 们 应 该 如 何 使 用 已 有 的 模型 ， 来 确定 为 菜 个 公 寅 支付 多 少 钱 呢 ? 下 面 来 看 看 吧 。 

首先 ， 需 要 理解 模型 的 输入 是 什么 样子 ， 这 样 我 们 才 知 道 如 何 输入 一 组 新 的 值 。 让 我 
们 来 看 看 XER. 




















X.head() 


上 述 代码 生成 图 2-24 的 输出 。 





我 们 可 以 看 到 ， 输 入 是 用 所 谓 的 虚拟 变量 进行 编码 的 。 由 于 邮政 编码 不 是 数字 的 ， 所 
以 为 了 表示 这 个 特征 ， 系 统 使 用 了 虚拟 编码 。 如 果 某 个 公寓 在 10003 中 ， 那 么 该 列 将 被 编 
码 为 1， 而 所 有 其 他 邮政 编码 都 被 编码 为 0。 而 卧室 是 数值 型 的 ， 所 以 系统 将 根据 实际 的 
数字 对 其 进行 编码 。 现 在 ， 让 我 们 创建 自己 的 输入 行进 行 预 测 。 

to pred idx = X.iloc [0] .index 

to pred zeros = np.zeros (len (to pred idx)) 


QFP: 位 于 美国 纽约 曼哈顿 的 切尔西 区 域 ， 以 画廊 、 音 乐 、 文 学 等 各 类 艺术 而 闻名 。 
书 译 者 注 : 纽约 的 黑人 区 。 
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tpdf = pd.DataFrame (to pred zeros, index- to pred idx, columns = ['value']) 


tpdf 

上 述 代 码 生 成 图 2-25 的 输出 。 

我 们 刚刚 使 用 了 X 和 矩阵 的 索引 ， 并 用 零 填 充 数据 。 现 在 让 我 们 填 入 一 些 实 际 的 值 。 我 
们 要 对 一 个 位 于 10009 区 域 的 、 包 含 一 间 卧 室 的 公寓 进行 估价 。 


tpdf.loc['Intercept'] = 1 
tpdf.loc['Beds'] = 1 
tpdf.loc['Zip[T.10009]'] = 1 


tpdf 


正确 的 统计 值 。 





Q 对 于 线性 回归 ， 截 距 值 必 须 设置 为 1， 模型 才能 返回 


上 述 代码 生成 图 2-26 的 输出 。 


kamoo 
wamionajo | 
arronal 
TITINM 
Wepri10017] |0 — | rr1oo13 





图 2-25 图 2-26 
这 里 我 们 可 以 看 到 截 距 和 10009 邮政 编码 已 经 被 设置 为 1 了。 
在 图 2-27 中 ， 我 们 可 以 看 到 卧室 的 数量 也 已 经 被 设置 为 1 了 。 
我 们 已 经 将 特征 设置 为 了 适当 的 值 ， 现 在 使 用 该 模型 返回 一 个 预测 。 
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results.predict(tpdf['value']) 

上 述 代码 生成 如 下 输出 。 

2529.5604669841355 

请 记 住 ，results 是 我 们 保存 模型 的 变量 名 。 这 个 模型 对 象 有 一 个 .predict () 方法 ， 
我 们 使 用 目 己 的 输入 值 调用 该 方法 。 正 如 你 可 以 看 到 的 ， 模 型 返回 了 预测 的 值 。 

如 采 我 们 想 要 在 条 件 中 增加 一 间 甲 室 怎么 办 ? 

来 改变 一 下 输入 并 看 看 结果 。 

tpdf['value'] = 0 

tpdf.loc['Intercept'] = 1 

tpdf.loc['Beds'] = 2 

tpdf.loc['Zip[T.10009]'] = 1 

tpdf 


上 述 代码 生成 了 图 2-28 的 输出 。 


[rae [e] 
wem — 
it [T.10035] [1.10036] 
amosso 
Rams | 
邮编 [T:10037] BAI 





ig [T.10065] 


邮编 [T.10075] o | 
邮编 [T.10280] 





2-27 图 2-28 
我 们 可 以 看 到 卧室 数量 已 经 被 更 新 为 2。 
现在 ， 我 们 将 再 次 运行 预测 。 
results.predict(tpdf['value']) 
上 上述 代码 生成 以 下 输出 。 
2738.035104645339 
看 起 来 ， 额 外 增加 的 是 室 每 个 月 将 花费 我 们 大 约 200 美元 。 如 采 我 们 选择 10002 地 区 
呢 ? 让 我 们 在 代码 中 实现 这 个 。 
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tpdf['value'] = 0 
tpdf.loc['Intercept'] = 1 
tpdf.loc['Beds'] = 2 
tpdf.loc['Zip[T.10002]'] = 1 


results.predict(tpdf['value']) 

上 上述 代码 生成 以 下 输出 。 

2651.1763504369078 

根据 我 们 的 模型 ， 如 果 选 择 10002 而 不 是 10009 地 区 ， 我 们 可 以 在 两 卧室 的 公寓 上 
bg — Ex. 


2.3.2. 扩展 模型 


到 了 目前 这 个 阶段 ， 我 们 只 检视 了 邮政 编码 、 卧 室 和 出 租价 格 之 间 的 关系 。 虽 然 这 个 
模型 有 一 定 的 解释 能 力 ， 但 是 ， 我 们 的 数据 集 太 小 ， 使 用 的 特征 也 太 少 ， 无 法 充分 地 观测 
房地产 佑 值 这 个 复杂 的 市 场 。 

然而 ， 科 运 的 是 ， 我 们 即将 回访 模型 添加 更 多 的 数据 和 特征 ， 而 且 可 以 使 用 完全 相同 
的 框架 来 扩展 我 们 的 分 析 。 

未 来 可 扩展 的 探索 包括 利用 Foursquare 或 Yelp API 所 提供 的 餐馆 和 酒吧 数据 ， 或 者 是 
Walk Score 这 类 供应 商 所 提供 的 可 步行 性 和 交通 便利 性 指标 。 

要 扩展 这 个 模型 有 很 多 的 方法 , 我 建议 你 在 一 个 方 回 上 持续 努力 , 例如 探 过 各 种 指标 。 
随 看 每 天 更 多 的 数据 被 发 布 ， 你 的 模型 会 不 断 地 改善 。 
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在 本 章 中 ， 你 学 习 了 如 何 获取 房地产 列表 上 的 数据 ， 利 用 pandas 的 功能 来 操作 和 清理 
数据 ， 通 过 热 图 来 可 视 化 地 检视 数据 ， 节 后 ， 构 建 并 使 用 回归 模型 来 为 公寓 估价 。 


目前 为 止 ， 我 们 只 是 刚刚 接触 了 机 右 学 习 的 表层 。 在 下 面 的 革 节 中 ， 我 们 会 继续 探索 
不 同 的 算法 和 应 用 。 


F 一 章 将 探讨 如 何 使 用 聚 类 算法 寻找 极其 稀有 的 、 折 扣 力度 非常 之 大 的 机 票 。 
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让 我 们 谈 谈 错 误 。 它 们 是 生活 的 一 部 分 ， 每 个 人 都 会 犯错 一 一 即使 是 航空 公司 也 如 此 。 

在 2014 年 的 某 个 下 午 ， 我 正在 阅读 Twitter 上 的 订阅 消息 ， 而 我 所 关注 的 其 中 一 个 账 
号 是 美国 一 家 主要 的 航空 公司 ， 它 们 所 提供 的 到 欧洲 的 机 票 价格 明显 低 于 正常 值 。 当 时 ， 
从 纽约 到 维也纳 最 便宜 的 票 价 也 要 大 约 800 美元 。 然 而 ， 该 航空 公司 在 某 些 日 期 的 推广 票 
价 介 于 350 美元 到 450 美元 之 间 。 这 似乎 好 得 让 人 难以 置信 ， 不 过 确 有 可 能 是 真 的 。 我 侦 
然 发 现 了 行业 所 说 的 错误 票 价 。 

在 旅行 老手 和 里 程 贩子 的 超级 秘密 社会 里 ， 这 是 众所周知 的 ， 航 空 公司 偶尔 
意外 地 一 一 贴 出 不 包括 燃料 附加 费 的 票 价 。 

值得 注意 的 是 ， 这 不 是 他 们 所 犯 的 唯一 一 类 错误 。 你 可 能 会 期 望 先进 的 算法 为 每 个 航 
班 更 新 票 价 ， 它 会 考虑 到 大 量 的 因素 而 不 至 于 犯错 。 在 大 多 数 情况 下 ， 你 是 对 的 。 但 是 ， 
由 于 遗留 系统 的 存在 ， 以 及 处 理 多 个 飞行 运营 商 和 管辖 区 域 的 复杂 性 ， 错 误 确 实 会 发 生 。 


既然 你 知道 这 些 聚 价 真 的 存在 ， 你 怎么 能 得 到 它们 呢 ? 当然 是 通过 机 和 喜 学 习 了 ! 由 于 
这 种 机 票 通 党 只 会 持续 几 个 小 时 然后 吏 消 失 了 ， 所 以 我 们 要 建立 一 个 应 用 程序 ， 持 续 监 控 
票 价 。 一 旦 出 现 异 钊 价格 ， 应 用 程序 将 产生 一 个 提醒 ， 然 后 我 们 惑 可 以 快速 地 采取 行动 了 。 


我 们 将 在 本 章 讨 论 以 下 主题 。 

。 在 网 上 获取 机 票 价 格 。 

*。 使 用 先进 的 网 络 抓 取 技术 检索 票 价 数 据 。 
。 解 析 文 档 对 象 便 型 以 握 取 价格 。 


。 使 用 聚 闫 技术 识别 异 负 标价 。 



































和 而且 
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e 使 用 IFTTT 发 送 实时 文本 提醒 。 
3.1 获取 机 时 价格 数据 


好 在 ， 机 票 价格 数据 比 房地产 数据 更 容易 获得 ， 所 以 不 难 找 。 免 费 的 、 付 费 的 API Z 
据 源 以 及 许多 网 站 都 提供 这 些 数据 。 我 测试 了 其 中 一 些 服务 ， 但 最 后 ， 只 有 一 个 近 供 的 妆 
据 格 式 是 可 用 的 。 这 种 格式 使 我 们 很 容易 提前 几 个 月 就 能 找到 价格 最 低 的 航班 。 

在 我 告诉 你 是 哪个 服务 之 前 , 让 我 和 完 癌 你 展示 一 下 典型 的 航班 搜索 界面 , 如 图 3-1 所 示 。 








x E x B = v II 


Flights Hotels Bundle Deals Cars Cruises Things to Do 
Roundtrip One way Multiple destinations 


Flying from Flying to 


City or airport City or airport 


Departing Returning Adults (18+) Children (0-17) 





3-1 





对 于 我 们 的 目标 而 言 ， 这 种 类 型 的 接口 其 问题 在 于 一 一 所 有 的 API 接口 有 相同 的 问 
是 一 一 我 们 需要 对 所 感 兴趣 的 全 部 日 期 、 全 部 可 能 的 行程 长 度 、 每 个 机 场 都 执行 得 询 。 虽 
然 这 样 做 是 可 行 的 ， 但 是 做 法 太 栓 拙 了 了， 而 且 和 需要 耗费 大 量 的 精力 。 

好 在 ， 有 一 个 更 好 的 方法 。Google 近 供 了 一 个 鲜 为 人 知 的 工具 ， 被 称 为 航班 盒 询 占 。 
此 工具 可 让 你 碍 看 在 数 月 的 时 间 内 ， 从 一 个 地 区 到 夯 一 个 地 区 的 最 低 票 价 。 


图 3-2 是 搜索 从 纽约 到 欧洲 、 行 程 为 8 一 12 天 的 例子 。 返 回 的 城市 按照 价格 来 排序 ， 
从 最 低 价 到 最 高 价 。 
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Google 


Explore flights 


Lowest fares for trips of 8-12 days 
From 


New York (all airports) London, United Kingdon Best price $446 
To 

Europe 
Try: Europe, Mexico, Caribbean 


Trip length 


8-12 days 
Best price $471 





3-2 





^T dk xr. APEE EA EA, RAER ERREEN, Jim 
整个 区 域 ， 时 间 跨 度 有 60 X. KAMRE S REM, ZEB E RAKIT 


这 是 个 好 消 恩 。 坏 消 恩 古 Google 使 代码 拉 取 数据 这 件 事 悄 变 得 相当 有 挑战 性 。 羡 运 的 
是 ， 使 用 一 些 联 明 的 编码 ， 我 们 仍然 可 以 得 到 所 需 的 数据 。 


3.2 使 用 高 级 的 网 络 仆 虫 拉 术 检 索 架 价 数 据 








我 们 已 经 在 前 面 的 章节 中 学 习 了 如 何 使 用 request 库 来 检索 网 页 。 正 如 我 之 前 所 说 ， 
它 是 一 个 了 不 起 的 工具 ， 但 不 于 的 是 ， 这 里 无 法 工作 。 我 们 想 要 疏 取 的 页 面 是 完全 基于 
AJAX 的 。 异 步 JavaScript CAJAX) 这 个 方法 从 服务 器 获取 数据 ， 而 不 必 重 新 加 载 整个 页 
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面 。 这 意味 者 ， 需 要 使 用 浏览 器 来 检索 数据 。 虽 然 这 个 听 起 来 好 像 需 要 大 量 的 额外 工作 ， 
不 过 有 两 个 库 ， 当 一 起 使 用 它们 的 时 候 ， 这 残 会 成 为 一 个 轻 量 级 的 任务 。 

这 两 个 库 是 Selenium 和 PhantomJS。Selenium 是 一 个 强大 的 工具 ， 它 可 以 自动 化 Web 
浏览 项 ， 而 PhantomJS 是 一 个 浏览 锋 。 为 什么 使 用 PhantomyJS 而 不 是 Firefox 或 Chrome 呢 ? 
PhantomJS 是 所 谓 的 无 头 浏览 右 ， 意 思 是 它 疫 有 可 视 化 的 用 户 界 面 。 这 使 得 它 非 常 精简 ， 
成 为 我 们 理想 的 选择 。 

















要 安装 PhantomJS， 你 可 以 从 http://phantomjs.org/ 
download.html 下 载 可 执行 文件 或 者 源码 。 至 于 
Selenium， 它 可 以 通过 pip 来 安装 。 








我 们 还 需要 另 一 个 名 为 BeautifulSoup4 的 库 来 解析 页 面 中 的 数据 。 如 果 你 还 没有 安装 

完成 这 些 安装 之 后 ， 让 我 们 开始 动手 吧 。 我 们 将 在 Jupyter 记事 本 里 工作 。Jupyter 最 
适合 探索 性 的 分 析 。 稍 后 ， 当 探索 完成 之 后 ， 我 们 会 继续 在 文本 编辑 器 中 工作 。 文 本 编辑 
器 更 适合 编写 我 们 想 要 部 署 为 应 用 程序 的 代码 。 

首先 ， 导 入 这 些 库 。 


import pandas as pd 








import numpy as np 


from selenium import webdriver 

from selenium.webdriver.common.desired capabilities import 
DesiredCapabilities 

from bs4 import BeautifulSoup 


import matplotlib.pyplot as plt 
$Smatplotlib inline 


接 下 来 ， 我 们 将 设置 代码 以 实例 化 浏览 器 对 象 。 正 是 这 个 对 象 将 为 我 们 拉 取 页 面 。 你 
可 以 在 浏览 饥 中 搜索 并 复制 URL， 以 此 来 选择 想 要 的 机 场 或 地 区 。 在 这 里 ， 我 会 得 找 从 纽 
约 机 场 到 几 个 亚洲 城市 的 行程 。 

url - 


"https://www.google.com/flights/explore/iexplore;f-JFK,EWR,LGA;t- 
HND,NRT,TPE,HKG,KIX;s-1;1i-8;1x-12;d-2016-04-01" 


driver = webdriver.PhantomJS() 
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dcap = dict(DesiredCapabilities.PHANTOMJS) 
dcap["phantomjs.page.settings.userAgent"] - ("Mozilla/5.0 
(Macintosh; Intel Mac OS X 10 10 5) AppleWebKit/537.36 (KHTML, like 
Gecko) Chrome/46.0.2490.80 Safari/537.36") 


driver = webdriver.PhantomJS (desired capabilities-dcap, 
service args-['--ignore-ssl-errors-true']) 


driver.implicitly wait(20) 
driver.get(url) 


PAI ma 22 I8] Bec RIT RICO i OS 1 H3) ANS PR RT VASE FH GE GP HIER, gi 
者 如 果 你 愿意 ， 也 可 以 将 其 蔡 换 为 自己 的 代理 。 进 入 到 解析 阶段 的 时 候 ， 这 点 变 得 尤为 重 
要 。 如 果 你 在 普通 的 浏览 占 中 使 用 菏 代理 来 选择 文档 对 象 模型 (DOM) 元 系 ， 然 后 在 代码 
中 传递 了 万 一 个 不 同 的 代理 ， 那 么 你 解析 页 面 的 时 候 也 许 会 碰 到 问题 ， 因 为 DOM 可 能 是 
与 用 户 代理 相关 的 。 


你 可 以 通过 Google 搜索 “what is my user agent?”， 来 找到 上 自己 的 用 户 代 理 。 
如 果 你 计划 将 其 用 于 其 他 的 息 虫 ， 请 复制 这 个 信息 ， 然 后 在 上 述 代码 中 使 用 它 。 

运行 上 述 代 人 码 之 后 ， 你 可 以 使 用 下 和 面 这 行 代码 来 保存 页 面 的 截图 。 请 检查 这 个 截图 
以 确保 一 切 看 起 来 正 第 。 

driver.save screenshot(r'flight explorer.png') 


如 果 一 切 都 是 按 计划 完成 ， 你 应 该 可 以 看 到 输出 为 True， 并 且 生 成 一 个 与 所 抓 取 页 
面相 关 的 图 像 文 件 。 在 普通 的 Web 浏览 器 中 ， 它 看 起 来 就 像 原 有 的 页 面 。 


接 下 来 ， 我 们 将 继续 解析 页 面 以 提取 定价 信息 。 


3.3 解析 DOM 以 提取 定价 数据 











DOM 是 形成 网 页 结构 的 元 系 集 合 。 如 来 你 曾经 查看 过 网 页 的 源 代码 , 你 就 已 经 看 到 了 
DOM 的 各 个 模块 。 它 们 包括 例如 jbody、div、class M id 这 样 的 元 素 和 标签 。 我 们 需 
要 处 理 这 些 元 系 来 所 取 所 圾 的 数据 。 


让 我 们 来 看 看 Google 网 页 的 DOM。 为 了 得 看 其 内 容 ， 请 在 该 页 面 上 单 击 右键 ， 并 单 
i RAA”. X] Firefox 或 Chrome 浏览 左 ， 这 个 操作 应 该 是 相同 的 。 这 将 打开 开发 
人 员 选 项 卡 ， 人 多 许 你 得 看 页 面 的 源 信息 。 打 开 之 后 ， 在 左上 角 挑 选 元 素 选 择 匿 ， 并 单 击 其 
中 一 个 价格 栏 跳 转 到 相应 的 元 闵 。 如 图 3-3 所 示 。 
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Coogle 
Explore flights Up to 1 stop - 


Lowest fares for trips of 8-12 days 
From 


New York (all airports) Hong Kong, Hong Kong Best price $656 
To 

HND, NRT, TPE, HKG, KIX 
Try: Europe, Mexico, Caribbean 


Trip length 


8-12 days 


=, Tokyo, Japan Best price $678 


(w [] | Elements | Network Sources Timeline Profiles Resources Audits Console 
Y «div Class-"FIWFGDB-v-m"» 
> <div class-"FTWFGDB-v-e"»..-/div» 
v «div elt="graph"> 
v «div class-"FTWFGDB-w-g''» 
v <div class-"FTWFGDB-w-p'» 
> <div class-"FTWFGDB-w-c'»..-/div» 
v «div class-"FTWFGDB-w-o FTWFGDB-w-b"> 
<div class=" FTWFCDB-w-Xx FTWFGDB-w-f left: @px; height: 72.3625px; "></div> 
«div class="FTWFGDB-w-x FTWFGDB-w-M" style="left: 6px; height: 72.3625px; "></div> 
«div class-"FTWFGDB-w-x FTWFGDB-w-M" style="left: 12px; height: 72.3625px;"></div> 
«div class-"FTWFGDB-w-x" style="left: 18px; height: 72.3625px;" »-/div» 
«div class-"FTWFGDB-w-x" style="left: 24px; height: 72.3625px;" »-/div» 
«div class-"FTWFGDB-w-x" style="left: 30px; height: 72.3625px;" »-/div» 
«div class-"FTWFGDB-w-x" style="left: 36px; height: 72.3625px; »-/div» 
«div class-"FTWFGDB-w-x" style="left: 42px; height: 72.3625px; »-/div» 
«div class-"FTWFGDB-w-x FTWFGDB-w-M" style="left: 48px; height: 72.3625px; »-/div» 
«div class-"FTWFGDB-w-x FTWFGDB-w-M" style="left: 54px; height: 72.3625px;' »-/div» 
htm! body root div div div div div div div div div div  div.FTWFGDB-w-o.FTWFGDB-w-b Wl Asi 269): m a [20b]: m 


3-3 


你 注意 a 到 的 第 一 件 事 悄 可 能 是 ， 友 现 div 标 丛 中 没有 任何 定价 数据 。 如 条 将 里 标 巷 停 在 
价格 蒋 上 ， 将 出 现 一 个 显示 费用 的 提示 ， 但 这 一 切 都 是 使 用 JavaScript 完成 的 ， 并 不 是 DOM. 
事实 上 ， 唯 一 可 用 的 信息 是 价格 栏 的 高 度 。 那 么 ， 我 们 如 何 获得 不 在 那里 的 数据 呢 ? SETEEINT ! 


页 面 确实 给 了 我 们 足够 的 线索 来 推 新 价格 ， 那 束 是 使 用 价格 栏 的 高 度 。 你 会 注意 到 ， 
为 每 个 城市 所 列 出 的 是 最 好 的 票 价 。 你 可 以 在 条 形 图 的 左手 边 看 到 它 。 此 div 提供 了 文本 
类 型 的 价格 ， 如 图 3-4 所 示 的 屏幕 截图 。 


你 还 会 注意 到 ， 每 个 城市 都 有 一 个 条 匹配 了 最 低 的 票 价 。 相 比 其 他 的 条 ， 这 个 条 加 入 
了 更 蜡 的 阴影 来 突出 显示 。 因 为 有 一 个 独特 的 类 来 产生 这 种 颜色 ， 因 此 我 们 能 够 对 它 进 行 
定位 。 一 旦 我 们 找到 了 和 它 ， 融 可 以 使 用 它 的 高 度 除 以 价格 来 确定 每 个 像 系 所 对 应 的 价格 。 
使 用 这 种 方法 ， 推 导出 每 个 航班 的 价格 束 成 为 了 一 个 简单 的 数学 练习 。 
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Google 
Explore flights Up to 1 stop - 


Lowest fares for trips of 8-12 days 
From 


New York (all airports) Hong Kong, Hong Kong Best price $656 


To 
HND, NRT, TPE, HKG, KIX 
Try: Europe, Mexico, Caribbean 


Trip length 


8-12 days 


— Taipei, Taiwan Best price $657 


"m. Tokyo, Japan Best price $678 
(x [] | Elements | Network Sources Timeline Profiles Resources Audits Console 
Y «div Class-"FIWFGDB-v-m"- 
> <div class-"FTWFGDB-v-e'»..-/div» 
v <div elt="graph"> 
v «div class="FTWFGDB-w-g"> 
v <div class-"FTWFGDB-w-p'» 
v «div class-"FTWFGDB-w-c''- 
«div class-"FTWFGDB-w-d'»$961-/div» 
<div CLass= FTWFGCDB-w-e” style="top: 33.6375px;">$656</div> 
</div> 
v <div class-"FTWFGDB-w-o FTWFGDB-w-b"> 
«div class-"FTWFGDB-w-x FTWFGDB-w-f" style="left: @px; height: 72.3625px;"></div> 
«div class-"FTWFGDB-w-x FTWFGDB-w-M" style="left: 6px; height: 72.3625px;"></div> 
«div class-"FTWFGDB-w-x FTWFGDB-w-M" style="left: 12px; height: 72.3625px; »-/div» 
«div class-"FTWFGDB-w-x" style="left: 18px; height: 72.3625px;"»-/div» 
«div class-"FTWFGDB-w-x" style="left: 24px; height: 72.3625px;"»-/div» 
«div class-"FTWFGDB-w-x" style="left: 30px; height: 72.3625px; "></div> 
«div class-"FTWFGDB-w-x" style="left: 36px; height: 72.3625px;"»-/div» 
html body root div div div div div div div div div.FTWFGDB-w-g  div.FTWFGDB-w-p  div.FTWFGDB-w-c Aae: aE 


图 3-4 





让 我 们 现在 编写 代码 。 

第 一 步 是 将 页 面 源 文件 提供 给 BeautifulSoup. 

s = BeautifulSoup(driver.page source, "lxml") 
然后 我 们 可 以 获取 所 有 最 佳 价格 的 列表 。 


best price tags = s.findAll('div', 'FTWFGDB-w-e') 
best prices - [] 
for tag in best price tags: 

best prices.append(int(tag.text.replace('$',''))) 


由 于 拥有 最 便宜 标价 的 城市 上 升 到 了 最 高 的 排名 ， 我 们 可 以 直接 使 用 它 。 
best price = best prices[0] 
接 下 来 ， 我 们 将 得 到 包含 每 个 条 的 高 度 的 列表 。 


best height tags = s.findAll('div', 'FTWFGDB-w-f') 
best heights - [] 
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for t in best height tags: 
best heights.append(float(t.attrs['style']^ 
.split('height:')[1].replace('px;',''))) 


同样 ， 我 们 只 需要 第 一 个 。 

best height = best heights[0] 

然后 我 们 可 以 计算 每 个 高 度 像 系 所 对 应 的 价格 。 

PPh = np.array(best price)/np.array(best height) 
接 下 来 ， 我 们 将 检索 每 个 城市 所 有 航班 的 价格 条 的 高 度 。 


cities = s.findAll('div', 'FTWFGDB-w-o') 








hlist-[] 

for bar in cities[0]\ 

.findAll('div', 'FTWFGDB-w-x'): 
hlist.append(float(bar['style']^ 

.Split('height: ') [1]\ 

.replace('px;',''))*pph) 

fares - pd.DataFrame(hlist, columns-['price']) 


ERER, SALE — TAIE, CS T PNAPH Pise CEU ES FURE. 
fares.min() 
上 述 代码 生成 图 3-5 的 输出 。 


我 们 的 最 低 棱 价 应 该 与 页 面 上 看 到 的 一 样 ， 而 事实 确实 如 此 。 现 在 再 看 看 完整 的 列表 ， 
如 图 3-6 所 示 。 































€ 
加 ET 
加 ET 
2 [5000000 
ENT] 
^ [eso onn 
DIT 
e [eso onn 
656, |[e essococoo 

floaté6d 
s es oo000 


图 3-5 图 3-6 
一 切 看 起 来 不 错 。 我 们 现在 可 以 继续 建立 异种 值 检测 了。 
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通过 聚 类 技术 识别 异 第 的 票 价 


机 票 全 天 都 在 不 断 地 更 新 。 如 果 我 们 试图 确定 远 低 于 正常 的 标价 ， 不 使 用 机 占 学 习 的 
BONA? 这 看 上 去 似乎 是 相当 简单 ， 但 是 当 你 开始 思考 可 用 的 选项 时 ， 它 很 快 束 变 得 
比 预 期 复杂 得 多 。 


一 个 选择 是 获得 每 个 城市 的 价格 并 设置 一 个 闵 值 ， 如 来 它们 跌 到 比 立 值 还 低 的 价格 ， 
你 惑 肥 送 一 个 提醒 。 这 可 能 行 得 通 ， 不 过 是 将 比 目 前 最 低 价格 少 一 定量 的 百分比 设置 为 近 
醒 的 条 件 ， 还 是 将 具体 的 美元 金额 设置 为 提醒 条 件 ? 还 有 ， 如 何 设 置 它 ?如 果 由 于 季 市 性 
因素 导致 妹 价 目 然 下 降 ， 又 该 怎么 办 呢 ? 也 许 你 可 以 检查 每 个 价格 条 和 中 间 值 相 比 偏离 了 
多 少 。 如 果 价 格 接近 平稳 的 时 候 ， 出 现 一 个 很 小 幅度 的 下 降 呢 ?也 许 你 可 以 对 比 每 个 价格 
条 与 其 相 邻 条 的 高 度 。 如 采 错 误 票 价 出 现在 不 止 一 天 中 ， 又 会 如 何 ? 正如 你 所 见 ， 这 件 任 
务 不 是 看 上 去 那么 简单 的 。 鉴 于 此 ， 我 们 如 何 避 免 为 每 个 城市 存储 定价 数据 、 处 理 季 性 
因 系 ， 并 试图 设置 国 值 的 烦恼 呢 ? 这 里 使 用 聚 类 算法 。 


有 许多 聚 类 算法 可 用 ， 但 是 对 于 这 里 所 处 理 的 数据 类 型 ， 我 们 将 使 用 被 称 为 基于 密度 
的 空间 聚 类 算法 (DBSCAN)， 它 适合 带 有 噪声 数据 的 应 用 。 这 是 一 种 非常 有 效 的 算法 ， 倾 
向 于 使 用 和 人 类 相同 的 方式 来 识别 点 的 集群 。 图 3-7 是 来 自 scikit-learn 文档 中 的 可 视 化 图 
像 。 它 演示 了 DBSCAN 在 不 同 数据 分 布 范 围 内 的 有 效 性 。 
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你 可 以 看 到 ， 它 是 相当 强大 的 。 让 我 们 现在 讨论 一 下 算法 的 工作 原理 。 
为 了 理解 DBSCAN 算法 ， 首 先 我 们 需要 讨论 两 个 参数 的 设置 ， 以 使 得 算法 能 够 运作 。 
第 一 个 参数 称 为 epsilon。 此 参数 确定 在 同一 聚 类 中 两 个 点 彼此 之 间 的 距离 。 如 果 epsilon 
设置 得 非 党 大， 那么 任何 两 个 点 则 更 可 能 聚集 在 一 起 。 第 二 个 参数 称 为 最 小 点 数 。 这 是 创 
建 肾 类 所 需 点 的 最 小 数量 (包括 当前 点 )。 如 果 最 小 的 点 数 是 1， 那 么 每 个 点 都 将 成 为 一 个 
聚 类 。 如 果 最 小 点 数 大 于 1， 那 么 有 可 能 某 些 点 就 不 隶属 于 任何 聚 类 。 然 后 这 些 点 就 被 认 
作品 声 一 一 也 就 是 DBSCAN 中 的 N。 


DBSCAN 算法 是 如 下 进行 的 。 从 所 有 点 的 集合 中 随机 选择 一 个 点 。 从 这 一 个 点 出 发 ， 
搜索 所 有 方 同 上 的 和 当前 点 相距 epsilon 距离 的 范围 。 如 果 在 epsilon 距离 的 范围 内 ， 存 在 
等 于 或 多 于 最 小 点 数 的 点 ， 那 么 这 个 范围 内 所 有 的 点 束 隶 属于 一 个 聚集 (图 3-7 中 的 彩色 
区 域 )。 针 对 每 个 新 加 入 充 聚 类 的 点 ， 重 复 该 过 程 。 继 续 此 操作 ， 直 到 没有 任何 新 的 点 可 以 
添加 到 此 聚 类 。 此 时 ， 第 一 个 聚 类 就 完成 了 。 现 在 ， 从 已 经 完成 的 聚 类 之 外 ， 随 机 选择 新 
的 点 再 次 开始 。 重 复 同样 的 过 程 ， 直 到 没有 新 的 聚 类 可 以 形成 。 

我 们 已 经 了解 了 算法 的 工作 原理 ， 现 在 将 其 应 用 到 机 票 的 数据 上 。 我 们 将 首先 创建 一 
个 简 蛙 的 图 像 来 检视 票 价 。 


fig, ax = plt.subplots (figsize=(10,6)) 




















plt.scatter (np.arange (len (fares['price'])),fares['price']) 


上 述 代 码 的 输出 如 图 3-8 所 示 。 


ee o oo o o o 





图 3-8 


我 们 可 以 看 到 票 价 平 稳 了 几 个 星期 ， 然 后 开始 急剧 上 升 。 大 多 数 人 可 能 将 这 些 看 作 4 
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个 主要 的 聚 类 。 现 在 编写 代码 来 识别 和 显示 这 些 集群 。 
首先 ， 我 们 将 设置 一 个 price 数据 框 ， 然 后 可 以 将 DBSCAN 对 象 传 入 其 中 。 


px = [x for x in fares['price']] 
ff = pd.DataFrame(px, columns-['fare']).reset index() 


然后 ， 我 们 需要 为 聚 类 导入 几 个 库 。 


from sklearn.cluster import DBSCAN 
from sklearn.preprocessing import StandardScaler 


最 后 ， 下 面 的 代码 将 DBSCAN 算法 应 用 于 票 价 数 据 并 输出 一 个 可 视 化 图 像 。 
X = StandardScaler().fit transform(ff) 
db = DBSCAN(eps-.5, min samples-1).fit(X) 


labels = db.labels 

clusters - len(set(labels)) 

unique labels - set(labels) 

colors = plt.cm.Spectral(np.linspace(0, 1, len(unique labels))) 
pit.subplots(figsize-(12,8)) 


for k, c in zip(unique labels, colors): 

class member mask - (labels -- k) 

xy = X[class member mask] 

pit.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor-c, 
markeredgecolor-'k', markersize-14) 


pit.title("Total Clusters: {}".format (clusters), fontsize-14, 
y=1 .01) 


让 我 们 逐 行 地 解释 。 在 第 一 行 , 我 们 使 用 standardScaler () 方法， 这 个 对 象 将 获取 
数据 ， 对 每 个 点 减 去 平均 值 ， 然 后 除 以 标准 差 “。 这 个 步骤 使 所 有 的 数据 位 于 相同 的 基础 
之 上 ， 并 为 算法 读 取 了 这 些 数 据 。 标 准 化 之 后 的 数据 被 传递 给 了 DBSCAN 对 象 。 这 里 设置 
了 前 面 讨论 的 两 个 参数 。 我 们 将 eps 或 者 epsilon 距 离 设 置 为 0 .5， 并 将 min samples 设 置 
为 1。 下 一 行 代码 将 labels 设 置 为 算法 的 labels 数 组 输出 。 每 个 点 (因为 min points 
设置 为 1) 都 将 关联 一 个 聚 类 ID 。 这 些 聚 类 将 被 标记 为 从 0 到 六 1， 其 中 zx 是 聚 类 的 总 数 。 
接 下 来 的 两 行 代 人 码 获 得 聚 类 的 总 数 及 其 唯一 标签 , 而 以 colors 开 头 的 代码 为 我 们 的 图 像 生 
成 了 有 颜色 的 图 。 剩余 的 代码 对 图 像 进行 了 设置 ， 包 括 对 每 个 聚 类 应 用 唯一 的 凑 色 ， 并 使 
用 聚 关 的 总 数 为 图 像 设 置 标题 。 

让 我 们 来 看 看 图 3-9 中 票 价 数据 的 输出 。 








DIZHI: 这 种 标准 化 的 方法 称 为 Z-Score。 
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正如 你 所 见 ， 算 法 已 经 确定 了 四 个 不 同 的 聚 类 ， 这 正 是 我 们 所 期 望 的 。 我 刚刚 告诉 你 
该 算法 使 用 这 些 参数 运作 得 有 多 好 , 而 现在 就 准备 修改 参数 了 ,为 什么 要 破坏 完美 的 结果 ? 
好 吧 ， 让 我 们 来 看 看 几 个 引入 虚构 票 价 的 场景 。 

使 用 目前 的 票 价 系 列 和 相同 的 参数 ， 让 我 们 再 引入 一 个 新 的 票 价 。 

首先 , 将 序列 中 的 数据 点 #10 BR. 我 们 将 其 从 656 美元 更 改 为 600 美元 , 如 图 3-10 
所 示 。 
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你 会 注意 到 在 接近 图 形 撒 部 的 位 置 ， 这 个 点 形成 了 目 己 的 聚 基 。 然 而 ， 尽 过 这 个 标价 
与 其 他 的 价格 明显 分 开 ， 但 是 还 不 足以 引起 我 们 注意 。 
让 我 们 增加 epsilon 参数 ， 这 样 我 们 只 会 聚 出 两 个 分 组 :典型 的 际 价 和 不 正常 的 肥 价 。 


我 们 现在 保持 相同 的 虚构 票 价 ， 不 过 将 epsilon 增加 到 1.5， 如 图 3-11 所 示 。 








图 3-11 


你 可 以 看 到 现在 有 两 个 聚 闫 。 我 们 600 美元 的 紧 价 已 经 被 放 在 了 主 聚 闫 ， 而 在 图 顶部 
最 右 侧 的 权 价 已 经 形成 了 目 己 的 聚 类 。 这 看 起 来 很 合理 ， 因 为 最 右边 的 标价 是 一 个 明显 的 
异常 值 。 让 我 们 再 测试 一 下 ， 圾 要 多 远 的 距离 才能 将 虚构 的 肥 价 放 在 目 己 的 聚 类 里 ? 

图 3-12 的 截图 展示 了 让 虚构 了 票 价 进一步 远离 后 的 结 朱 。 

在 图 3-12 中 ， 将 其 删除 到 550 美元 ， 我 们 可 以 看 到 它 仍然 是 主 聚 闫 的 一 部 分 。 

图 3-13 F, KRES 545 美元 ， 会 使 其 形成 目 己 的 聚 类 。 这 似乎 是 一 个 合理 的 水 平 ， 
个 过 现在 让 我 们 使 用 其 他 城市 运行 为 外 几 个 场景 试 试看 。 

图 3-14 是 东 束 成 田 机 场 的 数据 序列 。 其 中 有 个 单一 的 聚 闫 ， 这 古 我 们 所 希望 的 。 现 在 
换 一 个 虚构 的 票 价 。 我 们 将 序列 中 雁 5 的 标价 从 970 S76 EHR S 600 美元 。 这 是 一 个 大 幅 
的 下 降 一 一 远 远 超 过 之 前 数据 序列 中 由 于 111 美 元 下 跌 而 触发 一 个 新 的 集群 一 -但 它 显 然 在 

















3.3 解析 DOM 以 提取 定价 数据 71 
通 第 的 价格 范围 内 ， 所 以 我 们 不 想 形 成 一 个 新 的 聚 类 。 


oeme dbo © 
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从 图 3-15 中 你 可 以 看 到 没有 形成 新 的 聚 类 。 虚 构 的 票 价 和 其 左右 邻近 的 两 个 票 价 之 间 有 
如 此 大 的 距离 ， 为 什么 还 会 导致 这 种 情况 ? 这 是 因为 我 们 正在 处 理 整 个 序列 ， 而 不 仅仅 是 每 
个 点 最 近 的 邻 丰 。 最 有 可 能 的 是 ， 虚 构 的 数据 点 受到 其 左边 点 的 影响 而 加 入 到 聚 闫 。 让 我 
们 再 斌 一 个 场景 。 让 我 们 将 一 个 标价 置换 到 右边 一 一 进一步 远离 元 下 角 的 聚 类 ,如 图 3-16 
Bre 
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图 3-16 
这 里 我 们 将 #5 的 标价 从 1176 美元 换 成 700 美元 。 这 会 导致 一 个 新 的 聚 类 。 票 价 是 在 全 
系列 际 价 的 范围 之 内 ， 但 是 现在 它 当 然 是 一 个 弄 妾 点 。 然 而 ， 我 们 很 可 能 不 想 被 告知 这 种 弄 汕 。 
由 于 我 们 不 希望 在 每 次 有 多 个 集群 时 都 被 提醒 ， 因 此 需要 为 布 望 和 被 告知 的 场景 设置 规则 。 
首先 ， 由 于 我 们 正在 寻找 错误 的 标价 ， 因 此 期 户 它 们 等 于 所 显示 的 最 低 价格 。 我 们 可 











以 按照 聚 类 来 分 组 并 检 过 最低 的 价格 。 


pf = pd.concat([ff, pd.DataFrame(db.labels , 


columns-['cluster'])], axis-1) 


pf 
上 述 代码 生成 图 3-17 的 输出 。 


以 下 代码 将 按照 聚 类 来 分 组 并 显示 分 组 中 最 低 的 价格 和 
成 员 的 数量 。 

rf-pf.groupby ('cluster')['fare'].agg(['min','count']) 

rt 


上 述 代 码 生 成 儿 3-18 的 输出 。 

这 里 我 们 还 预计 错误 聚 类 将 小 于 主 聚 关 。 我 们 对 错误 聚 
类 的 大 小 设置 一 个 限制 ， 要 求 它 小 于 忌 数 的 百 分 之 10。 在 这 
种 情况 下 ， 它 将 少 于 七 个 票 价 。 这 个 数字 将 根据 不 同 聚 类 的 
数量 和 大 小 而 变化 ， 但 这 应 该 是 一 个 可 行 的 数字 。 为 了 得 看 
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分 位 数 的 细节 ， 可 以 使 用 下 面 这 行 代码 。 
rf.describe([.10,.25,.5,.75,.9]) 


上 述 代码 生成 图 3-19 的 输出 。 


数 2.000000 |2.000000 


平均 价 |689.000000 | 30.000000 


标准 差 | 15.556349 |41.012193 


z 


H 


最 低 价 | 678.000000 | 1.000000 


1096 |680.200000 | 6.800000 
6 


量 

DEAENCTTETUS 25% |683.500000 | 15.500000 
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将 防止 像 在 图 3-20 中 看 到 的 情况 。 
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这 里 的 费用 是 最 低 的 ， 但 它 只 是 比 其 他 聚 类 范围 低 那 么 一 点 点 。 设 置 最 小 距离 将 减少 
我 们 收 到 的 误 报 。 让 我 们 先 将 最 小 距离 设置 为 100 美元 。 
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现在 我 们 有 了 自己 的 异常 检测 规则 ， 下 面 来 看 看 如 何 将 全 部 的 模块 组 合 起 来 ， 完 成 实 
时 票 价 提醒 应 用 程序 。 


3.4 使 用 IFTTT 发 送 实时 提醒 


为 了 有 机 会 获得 这 些 便宜 的 标价 ， 当 它们 出 现时 我 们 需要 几乎 实时 地 知道 这 一 情况 。 
为 了 实现 这 一 点 ， 我 们 将 使 用 一 个 名 为 I This Then That 的 服务 (IFTTT)。 这 是 一 项 免费 
服务 ， 人 多 许 你 使 用 一 系列 的 触发 右 和 动作 ， 将 大 量 的 服务 连接 在 一 起 。 想 要 体 存 Instagram 
上 你 所 喜欢 的 所 有 照片 到 iPhone? 一 个 特定 的 人 每 次 发 布 Tweet 时 ， 你 都 想 收 到 一 个 电子 
邮件 ? 想 要 将 你 的 Facebook 更 新 发 布 到 Twitter? IFTTT 可 以 实现 所 有 这 一 切 ， 甚 至 更 多 。 


如 果 要 开始 使 用 IFTTT， 步 又 如 下 。 

l. 在 http://www.ifttt.com 注 册 账 户 。 

2. f£ https://ifttt.com/maker 注册 Maker 频道 。 

3. Æ https://ifttt.com/sms 注册 SMS 频道 。 

Maker 频道 允许 你 及 大 和 接收 HTTP 请 求 ， 而 SMS 频道 允许 你 友 送 和 接受 SMS 消息 。 

创建 账户 并 诉 活 两 个 频道 之 后 ， 请 单 击 主页 上 的 My Recepes， 然 后 再 单 击 Create a 
Recipe， 如 图 3-21 所 示 。 

My Recipes 


IF DO Published Favorites 


IF Recipes run automatically in the background. 
Create a Recipe 


oc 
then% 


v'e NPR nawr hoar AAC 
| J N \ ews head ISS 
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然后 搜索 并 选择 Maker 频道 ， 如 图 3-22 所 示 。 
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Choose Trigger Channel 


View all Channels 
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接 下 来 ， 选 择 Receive a web request, "lE 3-23 所 示 。 


M Choose a Trigger 


Receive a web request 

This Triggerfires every time the 
Maker Channel receives a web 
request to notify it of an event. See 
"How to Trigger Events" on the Maker 
Channel page 
(https://ifttt.com/maker) for more 
information. 
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然后 我 们 将 创建 一 个 名 为 fare alert 的 事件 ， 如 图 3-24 所 示 。 


M Complete Trigger Fields 


Receive a web request 


M Event Name 





fare_alert 


The name of the event, like "button pressed" or "front door opened" 


Create Trigger 


3-24 
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接 下 来 ， 我 们 将 设置 that， 如 图 3-25 所 示 。 


if M thenthat 


Maker Event "fare_alert" 





3-25 


搜索 SMS 并 选择 它 。 然 后 选择 Send mean SMS, lul 3-26 所 示 。 


Choose Action Channel 


View all Channels 


Sms 


"re 


3-26 





之 后 ， 我 们 将 填写 fare_alert 的 字段 。 确 保 蔡 换 掉 原 文中 的 花 括号 "“， 如 图 3-27 Pros. 
© Complete Action Fields 
Send me an SMS 
© Message 


The event named "fare alert" occurred on the Maker 


Channel 


Create Action 


3-27 





OFRE: 你 即将 看 到 的 花 括 号 是 保留 字 ， 用 于 传递 参数 。 
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一 旦 完成 ， 你 就 可 以 使 用 城市 和 机 票 价格 目 定 义 消 恩 ， 如 图 3-28 所 示 。 


Send me an SMS 


© Message 


A "mistake" fare has occurred! 
City: ((Value1]) 
Fare: ((Value2]] 





图 3-28 


为 了 测试 这 里 的 设置 是 否 奏效 ,请 访问 http://www.iftt.com/maker, it; How to Trigger 
Events。 然 后 填写 fare alert 的 事件 ， 并 将 测试 城市 和 标价 放 在 valuel 和 value2 的 框 中 ， 
如 图 3-29 所 示 。 


Your key is: MY SECRET KEY 


To trigger an Event 
Make a POST or GET web request to: 

https://maker.ifttt.com/trigger/ fare alert /with/key/MY SECRET KEY 
With an optional JSON body of: 


{ "value1l" : "| NRT |", "value2" : "| 400 |", "value3" : " "y 


The data is completely optional, and you can also pass value1, value2, and value3 as query parameters or form variables. This content will be 
passed on to the Action in your Recipe. 





图 3-29 





monu, rh Test It, TRACER ER LEP PR PUR] 7 AE fe 
现在 ， 所 有 的 模 英 都 已 经 就 绪 ， 和 是 时 候 将 它们 整合 到 单个 脚本 中 ， 让 其 进行 24X7 小 


时 的 聚 价 监 控 。 


3.5 整合 在 一 起 








之 前 ,我 们 都 在 Jupyter 记事 本 里 工作 , 但 现在 需要 部 署 应 用 程序 了 ， 我 们 会 切换 到 文 
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本 编辑 器 中 工作 。 记 事 本 对 于 探索 性 分 析 和 可 视 化 是 很 棱 的 ， 不 过 运行 后 人 台 作 业 最 好 使 用 
一 个 简单 的 .py 文件 。 所 以 让 我 们 开始 吧 。 
我 们 将 从 包 的 引入 开始 。 如 果 你 尚未 安装 这 些 包 ， 可 能 需要 通过 pip 安装 它们 。 


import sys 





import pandas as pd 
import numpy as np 


import requests 


from selenium import webdriver 

from selenium.webdriver.common.desired capabilities import 
DesiredCapabilities 

from selenium.webdriver.common.by import By 

from selenium.webdriver.support.ui import WebDriverWait 

from selenium.webdriver.support import expected conditions as EC 


from bs4 import BeautifulSoup 


from sklearn.cluster import DBSCAN 
from sklearn.preprocessing import StandardScaler 


import schedule 
import time 


BE POR. RARESA RARR AET RRRA. WE ARAR 
的 时 候 ， 会 存在 一 个 明显 的 等 每 。 这 是 因为 页 面 有 AJAX 的 异步 请 求 ， 我 们 需要 增加 一 个 
等 生 时 间 ， 以 确保 继续 下 一 步 之 前 页 面 的 定价 数据 已 经 被 返回 。 如 果 由 于 条 种 原因 ， 抓 取 
仍然 失败 ， 那 么 这 里 将 肥 送 一 个 文本 作为 提醒 。 

def check flights(): 


url = "https://www.google.com/flights/explore/itexplore;f-JFK, 
EWR,LGA;t-HND,NRT,TPE,HKG,KIX;s-1;1i-8;1x-12;d-2016-04-01" 











driver = webdriver.PhantomJS () 


dcap = dict(DesiredCapabilities.PHANTOMJS) 
dcap["phantomjs.page.settings.userAgent"] = \ 

("Mozilla/5.0 (Macintosh; Intel Mac OS X 10 10 5) 

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36") 


driver = webdriver.PhantomJS (desired capabilities-dcap, 
service args-['--ignore- 
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ssl-errors- true']) 
driver.get(url) 


wait = WebDriverWait(driver, 20) 
wait.until(EC.visibility of element located((By.CSS SELECTOR, 
"span.FTWFGDB-v-c"))) 


S — BeautifulSoup(driver.page source, "lxml") 
best price tags - s.findAll('div', 'FTWFGDB-w-e') 


# SERRE IS ÓEIES URAK Y ARA EHK] 

if len(best price tags) « 4: 
print('Failed to Load Page Data') 
requests.post('https://maker.ifttt.com/trigger/fare alert/with/key/MY SECRE 
T KEY',data-("valuel": "script", "value2": "failed", 
"value3": ""}) 

sys.exit(0) 

else: 
print('Successfully Loaded Page Data') 


best prices - [] 
for tag in best price tags: 
best prices.append(int(tag.text.replace('$', ey) 


best price - best prices[0] 


best height tags - s.findAll('div', 'FTWFGDB-w-f') 
best heights - [] 

for t in best height tags: 

best heights.append(float(t.attrs['style'] 
.split('height:')[1].replace('px;', ''))) 


best height = best heights[0] 


# 每 个 高 度 像素 对 应 的 价格 


pph = np.array(best price)/np.array(best height) 


cities = s.findAll('div', 'FTWFGDB-w-o') 
hlist - [] 
for bar in cities[0].findAll('div', 'FTWFGDB-w-x'): 


hlist.append(float(bar['style'].split('height: ')[1] 
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.replace('px;', '')) * pph) 


fares = pd.DataFrame(hlist, columns-['price']) 
px = [x for x in fares['price']] 
ff = pd.DataFrame(px, columns-['fare']).reset index() 


# 开始 聚 类 
X = StandardScaler().fit transform(ff) 
db = DBSCAN(eps-1.5, min samples-1).fit(X) 


labels = db.labels 
clusters - len(set(labels)) 


pf = pd.concat([ff, pd.DataFrame(db.labels , columns- ['cluster'])], 


rf = pf.groupby('cluster')['fare']WN 
.agg(['min', 'count']).sort values('min', scending-True) 


现在 我 们 将 检查 规则 是 否 被 触发 。 如 果 是 ， 就 发 送 接收 文本 的 请 求 。 


# 设 置 我 们 的 规则 
# 必 须 有 多 于 1 个 的 聚 类 
# 聚 类 的 最 小 值 必须 等 于 最 低 的 票 价 
# 聚 类 的 大 小 必须 小 于 全 部 数量 的 百 分 之 10 
E 聚 类 必须 比 次 低 的 价格 聚 类 少 100 美元 及 以 上 
if clusters > 1\ 
and ff['fare'].min() == rf.iloc[0]['min']\ 
and rf.iloc[0]['count'] < rf['count'] .quantile(.10)\ 
and rf.iloc[0]['fare'] + 100 < rf.iloc[1]['fare']: 
city s.find('span', 'FTWFGDB-v-c').text 
fare = s.find('div', 'FTWFGDB-w-e').text 
requests.post('https://maker.ifttt.com/trigger/fare alert/with/key/MY SECRE 
T KEY', data-("valuel": city, "value2": fare, "value3": ""}) 








else: 
print('no alert triggered') 


最 终 ， 我 们 将 设置 一 个 调度 占 。 它 每 60 分 钟 运行 一 次 这 里 的 代码 。 
# 设 置 调 度 器 ， 每 60 分 钟 运行 一 次 我 们 的 代码 
schedule.every (60) .minutes.do(check flights) 


while 1: 
schedule.run Pending () 
time.sleep(1) 
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这 样 做 应 该 就 完工 了 了。 我 们 现在 可 以 将 其 保存 为 fare_alerter.Py， 并 在 命令 行 中 
运行 它 。 它 将 持续 运行 并 每 60 分 钟 检查 一 次 标价 。 如 末 出 现 了 错误 的 机 票 ， 我 们 将 是 第 一 


个 知道 的 ! 
请 注意 ， 这 是 此 类 代码 的 最 基本 实现 。 为 了 创建 一 个 合 
理 的 实现 ， 应 该 使 用 良好 的 日 志 记 录 来 代替 这 里 列 出 
的 打印 语句 。 有 关 如 何 实现 日 志 记 录 的 更 多 信息 ,请 参 
J Ce OYECNon or rA ONTO 





logging.htmls$logging-basic-tutorial, 


3.6 小 结 


本 章 讨 论 了 很 多 内 容 。 我 们 学 会 了 如 何在 Web 上 找到 最 好 的 机 票数 据 , 如 何 使 用 DOM 
KARMEN HTML TA, 如 何 将 数据 聚集 为 有 意义 的 组 , 最 后 是 如 何 通 过 IFTTT 的 Web 
请 求 ， 从 代码 发 送 文 本 提醒 。 虽 然 我 们 在 这 里 讨论 的 是 机 票 相关 的 内 容 ， 但 是 所 做 的 工作 
几乎 可 以 重用 于 任何 你 想 关 注 的 定价 。 

如 果 你 决定 对 机 有 使 用 这 个 程序 ， 我 布 望 它 能 为 你 提供 许多 快乐 的 旅行 ! 

下 一 章 会 讨论 如 何 使 用 分 类 算法 来 帮助 预测 PO 的 市 场 。 








第 4 章 
使 用 逻辑 回归 预测 IPO 市 场 





在 20 世纪 90 年 代 末 ， 获 得 了 对 的 PO (首次 公开 募股 ) 就 像 赢 得 彩票 一 样 。 对 于 一 
些 技术 公司 而 言 ， 第 一 天 的 回报 是 它们 最 初 发 行 价格 的 很 多 倍 。 如 果 你 圣 运 地 得 到 了 一 个 
配额 ， 那 就 会 获得 一 笔 意 外 之 财 。 这 里 列 出 在 那个 时 期 ， 第 一 天 表现 最 棱 的 几 家 公司 。 
eVA Linux 上 涨 697%, 12/09/1999. 











eGlobe.com 上 涨 60696, 11/13/1998. 
eFoundry Networks 上 涨 52596, 9/28/1999. 


HA HRAKIN HT O25 64136, 1H IPO 仍然 可 能 在 第 一 天 给 予 超额 的 回报 。 
以 下 是 在 过 去 几 年 ， 第 一 天 交易 涨幅 超过 100% 的 几 个 。 


eSeres Therapeutics 上 涨 185%，06/26/2015。 





eAudro Biotech Ek 147%，4/15/2015。 
eShake Shack 上 涨 11896, 1/30/2015. 


正如 你 所 看 到 的 ， 这 仍然 是 一 个 值得 关注 的 市 场 。 在 本 章 中 ， 我 们 将 仔细 观察 IPO 市 
场 。 我 们 将 看 看 如 何 使 用 机 器 学 习 来 帮助 自己 决策 ， 哪 些 PO 值得 仔细 研究 ， 而 哪些 是 可 
以 忽略 的 。 


我 们 将 在 本 章 中 讨论 以 下 主题 。 
eIPO 市 场 。 
数据 清洗 和 特征 工程 。 

e。 使 用 远 辑 回归 的 二 元 分 类 。 
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。 模 型 评估 。 
e 特 征 的 重要 性 。 


4.1 IPO 市 场 


在 我 们 开始 建 模 之 前 , 先 讨 论 一 下 什么 是 IPO 或 首次 公开 募股 )， 以 及 关于 这 个 市 场 ， 
研究 的 结 琳 能 告诉 我 们 些 什 么 。 之 后 ， 我 们 将 讨论 一 些 可 以 应 用 的 策略 。 


4.1.1 什么 是 IPO 








自 钦 公开 努 股 是 一 家 私人 公司 成 为 上 市 公司 的 过 程 。 公 开 友 行为 公司 努 集资 金 ， 并 让 
公众 通过 购买 其 股票 ， 获 得 投资 该 公司 的 机 会 。 

虽然 具体 实施 有 些 不 同 ， 但 在 典型 的 用 行 过 程 中 ， 一 家 公司 会 列 出 一 家 或 多 家 承销 其 
及 行 的 投资 银行 。 这 意味 看 那些 银行 网 公司 傈 证 ， 在 肥 行 当天 他 们 将 购买 所 有 以 IPO 价格 
提供 的 股份 。 当 然 ， 承 销 的 银行 不 打算 目 己 保留 全 部 的 股份 。 在 有 太行 公司 的 帮助 下 ， 他 们 
去 做 所 谓 的 路 演 ， 吸 引 机 构 客 户 的 兴趣 。 这 些 客户 可 以 预订 股份 ， 表 示 他 们 有 意 在 IPO 当 
天 购买 股票 。 这 是 一 个 非 约束 性 合同 ， 因 为 友 行 的 价格 下 到 了 Po 的 当天 才 最 终 确定 。 然 后 ， 
承销 丙 将 根据 客户 们 所 表达 的 感 兴 趣 程 度 ， 设 定 友 行 的 价格 。 

从 我 们 的 角度 来 看 ， 非 常 有 趣 的 地 方 在 于 : 研究 表明 IPO 一 直 被 系统 性 地 低估 。 有 许 
多 理论 解释 为 什么 会 肥 生 这 种 情况 ， 以 及 为 什么 低 佑 的 范围 会 随 独 时 间 而 变化 ， 不 过 可 以 
肯定 的 是 ， 研 究 已 经 显示 出 每 年 有 “ 数 十 亿美 元 留 在 果子 上 ”。 

在 IPO 中 ,“ 贸 在 条子 上 的 钱 ” 是 指 股票 的 及 行 价 和 第 一 天 收盘 价 之 间 的 差价 。 


在 我 们 继续 之 前 ， 还 应 该 谈 一 谈 友 行 价 和 开盘 价 之 间 的 区 别 。 虽 然 偶然 的 情况 下 你 可 
以 通过 经 纪 人 的 交易 ， 以 及 行 价 获得 IPO， 但 作为 一 个 普通 的 公众 ， 你 基本 上 不 得 不 以 开 
盘 价 〈 通 党 更 高 ) 来 购买 I PO。 我 们 将 在 这 个 假设 下 构建 模型 。 


4.1.2 近期 IPO 市 场 表 现 


现在 来 看 看 PO 市 场 的 表现 。 我 们 将 从 IPOScoop.com 拉 取 数据 。 这 是 一 项 为 即将 
到 来 的 PO dé Dk 评级 的 服务 . 请 UV M 
https://www.iposcoop.com/scoop-track-record-from-2000-to-present 
/并 蛙 击 外面 的 部 的 按钮 ， 下 载 一 个 电子 表格 。 我 们 将 其 加 载 到 pandas, JEH Jupyter w 
事 本 运行 一 些 可 视 化 。 
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自 完 ， 进 行 整个 章 市 部 需要 的 导入 坏 市 。 然 后 ， 我 们 会 像 下 面 这 样 拉 取 数据 。 


importnumpy as np 

import pandas as pd 

importmatplotlib.pyplot as plt 

from patsy import dmatrix 

fromsklearn.ensemble import RandomForestClassifier 
fromsklearn import linear model 

$matplotlib inline 

ipos = pd.read csv(r'/Users/alexcombs/Downloads/ipo data.csv', 
encoding-'latin-1') 


ipos 


上 述 代 人 码 生 成 图 4-1 的 输出 。 


sra | ERE 
主 承 销 /联席 主 承销 发 行 价 | 开盘 价 NET LIA o M fri 评级 
变化 
2002- ` 
Jo Smaps ev bes oo sn sens sen DE Rr e e fn 
^ dem ames rum ioman samlozo [sos [oses (soor [soos 1 [non 
02-01 Lynch 
E M 
[x e | 


2002- | Carolina Group Salomon Smith 

2 CG $28.00 | $30.05 29.10 | 3.93% 2.05 1.10 13 

3 |2002- | Sunoco Logistics | | Lehman Brothers $20.25 | $21.25 |$22.10 |9.1496 $1.00 [$1.8 
02-05 | Partners 

a 5 Mantan MANT | Jefferies $17.10 [$18.21 |13.81% |$1.10 |$2.21 |3 
02-07 | International 

pub EN ER ET RR Es 








图 4-1 
这 里 我 们 可 以 看 到 ， 对 于 每 个 IPO 都 有 一 些 不 少 的 信息 : 发 行 日 期 、 发 行者 、 发 行 价 
格 、 开 盘 价 格 以 及 价格 的 变化 。 让 我 们 先 按 照 年 份 来 探索 表现 的 数据 。 


我 们 弟 先 需要 进行 一 些 清理 工作 ， 以 正确 地 格式 化 所 有 的 列 。 这 里 将 去 挥 美元 和 百 分 
EAE. 














ipos = ipos.applymap(lambda x: x if not '$' in str(x) else 
x.replace('$','')) 

ipos = ipos.applymap(lambda x: x if not '$' in str(x) else 
x.replace('$','')) 

ipos 


上 述 代码 生成 图 4-2 的 输出 。 


86 6 4 X (E39 E UH OUI IPO 市 场 


> 开盘 价 和 
首 日 价格 | 公交 
主 承 销 / 联 席 主 承销 a 发 行 价 相 


Bear Stearns 





Lehman Brothers/Marrill 
Lynch 


2002- |Sunoco Logistics 
SXL Lehman Brothers 2 
2002- | ManTech 
MANT  |Jefferies 
Es | SN ONSE NEMNEENBD DO RE 3] 


图 4-2 


接 下 来 ， 我 们 将 修正 所 有 列 的 数据 类 型 。 目 前 它们 都 是 对 象 ， 但 是 对 于 即将 执行 的 聚 
合 和 其 他 操作 而 言 ， 我 们 需要 数值 类 型 。 使 用 下 面 这 行 代码 来 查看 列 的 数据 类 型 。 

ipos.info() 

上 述 代码 生成 图 4-3. 的 输出 。 


«class 'pandas.core.frame.DataFrame'» 
Int64Index: 2335 entries, 0 to 2334 
Data columns (total 12 columns): 
2335 non-null object 
2335 non-null object 
2335 non-null object 
Lead/Joint-Lead Mangager 2335 non-null object 
Offer Price 2335 non-null object 
Opening Price 2335 non-null object 
lst Day Close 2335 non-null object 
lst Day $ Px Chng 2335 non-null object 
$ Chg Opening 2335 non-null object 
$ Chg Close 2335 non-null object 
Star Ratings 2335 non-null object 
Performed 259 non-null object 
dtypes: object(12) 
memory usage: 237.1-* KB 


图 4-3 
ERAGE PA — N/C RE, Aem BR. nun] ELSE OBRAS D. 


ipos.replace('N/C',0, inplace-True) 








ipos['Date'] = pd.to datetime (ipos['Date']) 

ipos['Offer Price'] = ipos['Offer Price'].astype('float') 

ipos['Opening Price'] - ipos['Opening Price'].astype('float') 

ipos['1st Day Close'] = ipos['1st Day Close'].astype('float') 

ipos['1st Day $ Px Chng '] = ipos['1st Day $ Px Chng '].astype('float') 
ipos['$ Chg Close'] = ipos['$ Chg Close'].astype('float') 

ipos['$ Chg Opening'] = ipos['$ Chg Opening'].astype('float') 
ipos['Star Ratings'] = ipos['Star Ratings'].astype('int') 
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MESA Bawa —. H0O —— 
HiEE tag. WE 4-4 Br. 
pandas/tslib. in pandas.tslib.array to datetime (pandas/tslib.c:37155)() 


pandas/tslib.pyx in pandas.tslib.array to datetime (pandas/tslib.c:35996)() 


pandas/tslib.pyx in pandas.tslib.array to datetime (pandas/tslib.c:35724)() 


pandas/tslib.pyx in pandas.tslib.array to datetime (pandas/tslib.c:35602)() 
pandas/tslib.pyx in pandas.tslib.convert to tsobject (pandas/tslib.c:23563)() 
pandas/tslib.pyx in pandas.tslib. check dts bounds (pandas/tslib.c:26809)() 


OutOfBoundsDatetime: Out of bounds nanosecond timestamp: 120-11-01 00:00:00 





4-4 


这 意味 着 我 们 的 日 期 中 有 一 个 格式 是 不 正确 的 。 基 于 上 述 的 堆栈 跟踪 信息 发 现 问题 ， 
然后 修复 它 。 


ipos[ipos['Date']-2-2'11/120'] 


发 现 这 个 错误 后 ， 我 们 将 观察 图 4-5 的 输出 。 


11/120 Alon USA ALDW ENG, Sacha Credit 
Partners, LP Suisse/ Citigroup 





正确 的 日 期 应 该 是 11/20/2012， 因 此 我 们 将 对 其 设置 正确 的 值 并 重新 运行 前 面 的 数据 
类 型 修订 。 之 后 ， 一 切 都 可 以 顺利 进行 。 


ipos.loc[1660, 'Date'] = '2012-11-20' 


ipos['Date'] = pd.to datetime (ipos['Date']) 

ipos['Offer Price'] = ipos['Offer Price'].astype('float') 
ipos['Opening Price'] - ipos['Opening Price'].astype('float') 
ipos['1st Day Close'] = ipos['1st Day Close'].astype('float') 
ipos['1st Day % Px Chng '] = ipos['1st Day $ Px Chng'] 
.astype('float') 

ipos['$ Chg Close'] = ipos['$ Chg Close'].astype('float') 
ipos['$ Chg Opening'] = ipos['$ Chg Opening'].astype('float') 
ipos['Star Ratings'] = ipos['Star Ratings'].astype('int') 


ipos.info() 


述 代码 生成 图 4-6 的 输出 。 
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«class 'pandas.core.frame.DataFrame'» 

Int64Index: 2335 entries, 0 to 2334 

Data columns (total 12 columns): 

Date 2335 non-null datetime64[ns] 
Issuer 2335 non-null object 

Symbol 2335 non-null object 
Lead/Joint-Lead Mangager 2335 non-null object 

Offer Price 2335 non-null float64 
Opening Price 2335 non-null float64 

lst Day Close 2335 non-null float64 

lst Day $ Px Chng 2335 non-null float64 

$ Chg Opening 2335 non-null float64 

$ Chg Close 2335 non-null float64 

Star Ratings 2335 non-null int64 
Performed 259 non-null object 

dtypes: datetime64[ns](1), float64(6), int64(1), object(4) 
memory usage: 237.1-* KB 





图 4-6 
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ipos.groupby(ipos['Date'].dt.year)['1st Day $ Px Chng ']\ 
.mean().plot(kind-'bar', figsize-(15,10), colorz'k', title-'l1st Day Mean 
IPO Percentage Change") 


上 述 代码 生成 图 4-7 的 输出 。 
首 日 IPO 变 化 百分比 的 均值 


0 1 | 


^od) 
图 4-7 








P 4 
4 


这 里 都 是 近年 来 一 些 正 同 的 百分比 。 让 我 们 现在 来 看 看 与 平均 值 相 比较 ， 中 位 数 的 表 
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现 又 是 如 何 。 


ipos.groupby(ipos['Date'].dt.year)['1st Day $ Px Chng ']\ 
.median().plot(kind-'bar', figsize-(15,10), colorz'k', title-'1st Day 


Median IPO Percentage Change') 


上 上 述 代 码 生成 图 4-8 的 输出 。 
首 日 IPO 变 化 百分比 的 中 位 数 





图 4-8 


通过 平均 值 和 中 位 数 的 对 比 ， 我 们 可 以 清楚 地 看 到 ， 一 些 较 大 的 异常 值 造 成 了 回报 分 
布 的 俩 笠 。 让 我 们 来 仔细 观察 一 下 。 


ipos['1st Day $ Px Chng '].describe() 


上 述 代码 生成 图 4-9 的 输出 。 
.000000 
.152599 
.924024 
.220000 
.000000 


.750000 
.715000 
.850000 
$ Px Chng , dtype: float64 





图 4-9 
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现在 我 们 还 可 以 将 其 绘制 成 图 。 
ipos['1st Day $ Px Chng '].hist(figsize-(15,7), bins-100, colorz'grey') 


上 述 代码 生成 图 4-10 的 输出 。 





图 4-10 





从 图 4-10， 我 们 可 以 看 到 大 多 数 回 报 集中 在 零 附 近 ， 但 有 个 长 尾 一 二 拖 到 右 侧 ， 那 里 
4 —EÉ EIER HT "ARTI. 

我 们 已 经 看 过 第 一 天 的 百分比 变化 ， 束 是 从 及 行 价 到 当天 收盘 价 的 差距 ， 但 正如 我 前 
面 所 指出 的 ， 很 少 有 机 会 能 够 以 发 行 价 买 入 。 既 然 如 此 ， 现 在 让 我 们 来 看 看 开盘 价 到 收盘 
价 的 收益 率 。 它 有 助 于 我 们 理解 这 个 问题 ， 所 有 的 收益 都 是 给 了 那些 拿 到 发 行 价 的 人 ， 还 
征 说 在 第 一 天 人 们 仍然 有 机 会 冲 入 并 获得 超 高 的 回报 ? 

为 了 回答 这 个 问题 ， 我 们 首先 创 建 两 个 新 的 列 。 

ipos['$ Chg Open to Close'] = ipos['$ Chg Close'] - ipos['$ Chg Opening'] 


ipos['$ Chg Open to Close'] = (ipos['$ Chg Open to Close']/ipos['Opening 
Price']) * 100 


上 面 的 代码 生成 图 4-11 的 输出 。 








OFRE: 这 里 形容 非常 成 功 的 发 行 。 
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要 首 日 价 
发 行 价 FEM nun 
比例 


2002- Lehman 

02-01 ZymoGenetics |ZGEN  |Brothers/Merril — |12.00 | 12.01 12.05 |0.42 0.04 |o. 333056 
Lynch 

2002- | Carolina Group loro oon ET 
Barney/Morgan  |28.00 | 30.05 29.10 |3.93 1.10 -0.95 |-3.161398 

02-01 | (Loews Corp.) 一 pe | 


| [sueco — | 





图 4-11 
接 下 来 ， 我 们 将 生成 统计 信息 。 


ipos['$ Chg Open to Close'].describe() 


上 面 的 代码 生成 图 4-12 的 输出 。 


count 2335.000000 
mean .,816079 
std .401379 
min .522167 
25% .817541 


50% .000000 
758 .691830 
max 113.,333333 
Name: $ Chg Open to Close, dtype: floató64 





图 4-12 


BA, AEREA ERMAS. AREA ERUKCAJTSSHBCH RI BETEJT UH PER. [Hoe 
跌幅 几乎 达到 99%， 似 乎 是 不 太 现实 的 。 经 过 一 番 调 碍 ， 我 们 发 现 好 像 两 个 表现 最 差 的 发 
行者 实际 上 是 不 好 的 数据 点 。 当 处 理 现 实 世 界 的 数据 时 ， 往 往 情 况 惑 是 如 此 ， 所 以 我 们 将 
更 正 这 些 并 重新 生成 数据 。 


ipos.loc[440, '$ Chg Opening'] = .09 
.01 
ipos.loc[1264, 'Opening Price'] = 11.26 











ipos.loc[1264, '$ Chg Opening'] 


ipos['$ Chg Open to Close'] = ipos['$ Chg Close'] - ipos['$ Chg Opening'] 
ipos['$ Chg Open to Close'] = (ipos['$ Chg Open to Close']/ipos['Opening 
Price']) * 100 


ipos['$ Chg Open to Close'].describe() 


上 述 代码 生成 图 4-13 的 输出 。 
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000000 
.880407 
.114790 
.383333 
.800000 


.000000 
.691830 
«943333 
Name: $ Chg Open to Close, dtype: floató64 





图 4-13 


XX Uc A P ESI 4096 , AEREA KEME, 不 过 仔细 观察 之 后 , 发 现 它 是 Zillow 
的 IPO. Zillow JF 2b fs KA, BERRI DUCES f Hübk E. xedURAXADDQ MAX 
据点 似乎 已 经 被 清理 完毕 了 。 

现在 将 继续 前 进 ， 和 希望 我 们 已 清除 了 大 部 分 的 错误 。 

ipos['$ Chg Open to Close'] .hist(figsize=(15,7), bins=100, color='grey') 


上 述 代码 生成 图 4-14 的 输出 。 





图 4-14 


最 后 ， 我 们 可 以 看 到 开盘 价 到 收盘 价 变化 的 分 布 形状 ， 和 发 行 价 到 收盘 价 变化 的 分 布 相 











比 ， 有 着 明显 的 差 寞 。 平 均值 和 中 位 值 都 有 显著 的 下 降 ， 而 且 紧 由 着 原点 右 侧 的 条 形 看 上 
去 有 一 个 健康 的 梯度 ， 而 原点 左 侧 的 条 形似 乎 也 按照 比例 进行 了 增长 “。 注 意 ， 右 边 的 长 





OFRE: 之 所 以 作者 认为 这 样 的 分 布 更 健康 ， 是 因为 它 更 符合 常见 的 正 态 分 布 假设 。 
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尾 没有 之 前 那么 明显 了 ， 但 仍然 是 值得 注意 的 ， 所 以 还 有 一 丝 希望 。 
4.1.3 基本 的 IPO 策略 

现在 我 们 对 市 场 有 了 一 些 感觉 ， 这 里 来 探讨 几 项 策略 。 如 果 我 们 以 其 开盘 价 购买 每 个 
IPO 股票 ， 然 后 在 收盘 时 卖 出 ， 那 么 最 终 收 益 如 何 ? 我 们 看 一 下 2015 年 迄今 的 数据 。 


ipos[ipos['Date']»2'2015-01-01']['$ Chg Open to Close'].describe() 


上 述 代码 生成 图 4-15 的 输出 。 





.000000 
.659105 
.334366 
.729963 
.735019 


.000000 
. 706447 
.903061 
: $ Chg Open to Close, dtype: float64 





图 4-15 


ipos[ipos['Date']»-2'2015-01-01']['$ Chg Open to Close'].sum() 


上 述 代码 生成 图 4-16 的 输出 。 
让 我 们 拆 分 一 下 盆 利 的 交易 和 亏损 的 交易 。 4-16 


ipos[(ipos['Date']»2'2015-01-01')&(ipos['$ Chg Open to C1ose']5»50)]['$ Chg 
Open to Close'].describe() 


上 述 代码 生成 图 4-17 的 输出 “。 


count 73.000000 
mean 1.574795 
std 3.020735 
min 0.010000 
25% 0.200000 
50% 0 


.670000 
758 1.340000 
max 20.040000 
Name: $ Chg Open to Close, dtype: floató64 





图 4-17 


ipos[(ipos['Date']»2'2015-01-01')&(ipos['$ Chg Open to Close']«0)]['$ Chg 
Open to Close'].describe() 


DZP: 该 图 中 的 max 和 图 4-15 中 的 max 应 该 一 致 ， 应 该 是 笔 误 。 
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上 述 代 码 生 成 图 4-18 的 输出 “。 


.000000 
.249538 
.381957 
.160000 
.580000 


.820000 
.220000 
.010000 
Open to Close, dtype: float64 
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所 以 ， 我 们 可 以 看 到 ， 如 果 2015 年 投资 每 一 个 PO， 我 们 将 会 忙于 投资 147 家 IPO, 
大 约 一 半 使 我 们 挣 钱 ， 而 另 一 半 使 我 们 损失 了 钱 。 整 体 上 还 是 有 利润 的 ， 因 为 盘 利 IPO 的 
收益 最 终 弥补 了 损失 的 钱 。 当 然 ， 这 里 假设 没有 交易 差额 或 佣金 成 本 ， 在 现实 世界 中 这 些 
都 是 不 可 避免 的 。 然 而 ， 这 显然 不 是 发 家 致富 的 法 宝 ， 因 为 平均 回报 率 低 于 196. 


”交易 差额 是 指 对 于 目标 股票 ， 你 党 试 买 入 或 卖 出 的 价 
格 和 订单 实际 执行 价格 之 间 的 差异 。 


让 我 们 看 看 是 舍 可 以 使 用 机 器 学 习 来 帮助 改善 这 个 最 基本 的 方法 。 一 个 合理 的 东 略 似 
PEER 4-14 中 那 长 长 的 右 尾 ， 所 以 我 们 将 有 聚焦 于 此 。 


4. 2 特征 工程 




















在 交易 开始 后 ， 什 么 会 影响 股票 的 表现 ?最 近 整 体 市 场 的 表现 ， 或 者 是 承销 两 的 威望 
都 可 能 会 影 啊 它 。 也 许 交 易 日 的 星期 几 或 月 份 很 重要 。 在 模型 中 考虑 和 守 括 这 些 因 系 被 称 
为 特征 工程 ， 而 且 特征 的 建 模 几 乎 和 用 于 构建 模型 的 数据 一 样 重要 。 如 果 你 的 特征 没有 信 
姑 含 量 ， 那 么 模型 根本 不 会 有 价值 。 

让 我 们 开始 这 个 过 程 ， 添 加 一 些 我 们 觉得 可 能 会 影响 IPO 表现 的 特征 。 


先 从 获取 标 普 500 指数 的 数据 开始 。 这 可 能 是 普通 美国 市 场 最 好 的 代表 。 我 们 可 以 从 
Yahoo! Finance P EK ; 网 址 是 
https://finance.yahoo.com/q/hp?s=%5EGSPC&a=00&b=1&c=2000&d=11&e=1 


7&f=2015&g=d。 然 后 ， 我 们 可 以 使 用 pandas 导入 数据 。 














Q) 译 者 注 : 该 图 中 的 min 和 图 4-15 中 的 min 应 该 一 致 ， 可 能 是 笔 误 。 
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sp = pd.read csv(r'/Users/alexcombs/Downloads/spy.csv') 
sp.sort values('Date', inplace-True) 

sp.reset index(drop-True, inplace-True) 

SP 


上 述 代码 生成 图 4-19 的 输出 。 


FL [oum [oa [ wm [ wx [ wa 
2000-01 -06 1403.449951 1403.449951 
aeris 





2000-01-07 1400.729980 |1441.469971 
2000-01-10 1441.469971 |1457.599976 
1434.420044 |1438,560056 
1438.560059 1432.250000 


1432.250000 | 1454.199951 | 1432.250000 | 1449.680054 | 1030400000 | 1449.680054 
|9 [2000-01-14 1449.680054 | 1473.000000 | 1449.680054 | 1465.150024 | 1085900000 | 1465.150024 


图 4-19 
因为 整体 市 场 在 过 去 一 周 的 表现 会 在 馆 辑 上 影响 某 个 股票 ， 因 此 让 我 们 将 其 添加 到 这 里 
的 DataFrame 中 。 我 们 将 计算 标 普 500 昨日 收盘 价 相对 于 其 七 天 前 收盘 价 的 变化 百分比 。 


def get week chg(ipo dt): 











try: 

day ago idx = sp[sp['Date']--str(ipo dt.date())].index[0] - 1 
week ago idx = sp[sp['Date']--str(ipo dt.date())].index[0] - 8 
chg = (sp.iloc[day ago idx]['Close'] - N 

sp.iloc[week ago idx]['Close'])/(sp.iloc[week ago idx]['Close']) 
return chg * 100 

except: 

print('error', ipo dt.date()) 


ipos['SP Week Change'] = ipos['Date'].map(get week chg) 

上 述 代 码 生 成 图 4-20 的 输出 。 

运行 代码 后 , 系统 提示 我 们 有 几 个 日 期 对 应 的 数据 执行 失 | error 2013-11-]1- 
败 了 ,这 表明 IPO 的 日 期 可 能 存在 一 些 错 误 。 检查 这 些 日 期 相 | error 2015-02-21 
关 的 PO 发 现 它们 当天 是 关闭 的 状态 。 这 里 是 纠正 错误 的 一 “| error 2015-02-21 
个 示例 和 代码 。 图 4-20 

ipos[ipos['Date']-22'2009-08-01'] 


上 述 代码 生成 图 4-21 的 输出 。 
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收盘 价 和 | 
E | 开盘 价 相 | 
比 变化 的 
的 变化 | 比例 | 














y à HE X 行 | 
"n | A 
= M - 
Emdeon l ibn 15 : : 
Stanley 


图 4-21 


EM 的 实际 PO 日 期 是 2009 年 的 8 月 12 日 所 以 将 其 纠正 ， 此 外 ， 经 过 一 番 研 


: 


我 们 也 友 现 了 其 他 错误 数据 的 真正 友 行 日 期 并 做 了 修正 。 


ipos.loc[1175, 'Date'] pd.to datetime('2009-08-12') 
ipos.loc[1660, 'Date'] pd.to datetime('2012-11-20') 
ipos.loc[2251, 'Date'] - pd.to datetime('2015-05-21') 
ipos.loc[2252, 'Date'] = pd.to datetime('2015-05-21') 


再 次 运行 该 函数 ， 它 将 正确 地 湛 加 所 有 友 行 股票 的 一 周 变 化 情况 


ipos['SP Week Change'] = ipos['Date'] .map (get week chg) 


现在 ， 让 我 们 添加 一 项 新 的 指标 ， 即 标准 普尔 500 指数 在 IPO 前 一 天 收盘 时 到 IPO 于 


日 开盘 时 这 个 期 间 内 ， 变 化 的 百分比 。 


ZGEN 





def get cto chg(ipo dt): 

try: 

today open idx - sp[sp['Date']--str(ipo dt.date())].index[0] 

yday close idx = sp[sp['Date']--str(ipo dt.date())].index[0] - 1 
chg = (sp.iloc[today open idx]['Open'] - \ 

sp.iloc[yday close idx]['Close'])/(sp.iloc[yday close idx]['Close']) 
return chg * 100 

except: 

print('error', ipo dt) 

ipos['SP Close to Open Chg Pct'] - ipos['Date'].map(get cto chg) 


上 述 代码 生成 图 4-22 的 输出 。 


主 承销 - 首 日 | d : TM furi KRMA kei E 
/联席 主 承销 ”| 改行 价 | 开盘 价 l a i 相 ener 评 mme dte 周 变化 到 次 日 开盘 
| 的 恋 的 变化 变化 百分比 


0.000000 ,126333 | -1. m 0.000000 


Lehman 

Brothers/Merrill |12.00 | 12.01 12.05 10.42 0.333056  |0.972811 |0.972911 |0.000000 
Lynch 

Salomon Smith 

Barney/Morgan 128.00 | 30.05 29.10 |3.93 -3.161398 /|0.972811 |0.972911 |0.000000 
Stanley 


Lehman 
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现在 ， 让 我 们 来 整理 承销 商 的 数据 。 这 需要 一 些 工作 量 。 我 们 将 执行 一 系列 的 步骤 。 
首先 ， 为 主 承 销 商 添加 一 列 。 接 下 来 ， 会 对 数据 进行 标准 化 。 最 后 ， 我 们 将 添加 一 列 ， 表 
示 参 与 承销 商 的 总 数 。 


自 完 ， 我 们 通过 数据 中 字符 串 的 拆 分 和 空格 的 删 际 ， 解 析出 主 承销 商 。 


ipos['Lead Mgr'] = ipos['Lead/Joint-Lead Mangager'].map(lambda x: 
x.split('/')[0]) 
ipos['Lead Mgr'] = ipos['Lead Mgr'].map(lambda x: x.strip()) 


接 下 来 ， 打 印 出 不 同 的 主 承销 商 ， 这 样 可 以 看 出 为 了 规范 银行 的 名 称 ， 需 要 进行 多 少 
清理 工作 。 


for n in pd.DataFrame (ipos['Lead Mgr'].unique(), 
columns-['Name']).sort('Name')['Name']: 
print (n) 


上 述 代码 生成 图 4-23 的 输出 。 


A.G. Edwrads & Sons 

AG Edwards 

AG Edwards & Sons 

AG Edwrads 

Adams Harkness 

Advest 

Aegis Capital 

Aegis Capital Corp 

Aegis Capital Corp. 
Anderson & Strudrick 
Axiom Capital Management 
BB&T Capital Markets 

BMO Capital Markets 

Baird 

Baird, BMO Capital Markets, Janney Montgomery Scott 
Banc of America 

Banc of America Securities 
Barclay Capital 

Barclays 





图 4-23 
有 两 种 方法 可 以 做 到 这 一 点 。 第 一 种 方法 ， 坚 无 疑问 是 两 个 方法 中 更 容易 的 那个 ， 残 
是 相信 我 们 为 你 所 做 的 工作 ， 只 是 复制 和 粘贴 下 面 的 代码 。 另 一 种 方法 是 执行 大 量 返 代 的 
字符 串 部 分 匹配 ， 并 且 由 你 目 己 来 纠正 。 强 烈 建议 使 用 第 一 种 选项 。 

















ipos.loc[ipos['Lead Mgr'].str.contains('Hambrecht'),'Lead Mgr'] = 'WR 
Hambrecht4Co."' 

ipos.loc[ipos['Lead Mgr'].str.contains('Edwards'), 'Lead Mgr'] = 'AG 
Edwards' 


ipos.loc[ipos['Lead Mgr'].str.contains('Edwrads'), 'Lead Mgr'] = 'AG 
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Edwards ' 
ipos.loc[ipos['LeadMgr'].str.contains('Barclay'), 'LeadMgr'] = 'Barclays' 
ipos.loc[ipos['Lead Mgr'].str.contains('Aegis'), 'Lead Mgr'] = 'Aegis 
Capital' 
ipos.loc[ipos['LeadMgr'].str.contains('Deutsche'), 'Lead Mgr'] = 'Deutsche 
Bank' 

ipos.loc[ipos['Lead Mgr'].str.contains('Suisse'), 'Lead Mgr'] = 'CSFB' 
ipos.loc[ipos['Lead Mgr'].str.contains('CS.?F'), 'Lead Mgr'] = 'CSFB' 
ipos.loc[ipos['Lead Mgr'].str.contains('^Early'), 'Lead Mgr'] - 
'EarlyBirdCapital' 

ipos.loc[325,'Lead Mgr'] = 'Maximum Captial' 

ipos.loc[ipos['Lead Mgr'].str.contains('Keefe'), 'Lead Mgr'] = 'Keefe, 
Bruyette & Woods' 

ipos.loc[ipos['Lead Mgr'].str.contains('Stan'), 'Lead Mgr'] = 'Morgan 


Stanley' 


ipos.loc[ipos['LeadMgr'].str. 


ipos.loc[ipos['Lead Mgr'].str 


ipos.loc[ipos['Lead Mgr'].str. 
ipos.loc[ipos['Lead Mgr'].str. 


America' 


ipos.loc[ipos['Lead Mgr'].str. 


Lynch' 


ipos.loc[ipos['Lead Mgr'].str. 


Lynch' 


ipos.loc[ipos['Lead Mgr'].str. 


Lynch' 


ipos.loc[ipos['Lead Mgr'].str. 


'BofA Merrill Lynch' 


ipos.loc[ipos['Lead Mgr'].str. 


Lynch' 


ipos.loc[ipos['Lead Mgr'].str. 


Merrill Lynch' 


ipos.loc[ipos['Lead Mgr'].str. 


O'neil + Partners' 


ipos.loc[ipos['Lead Mgr'].str. 


O'Neil + Partners' 


ipos.loc[ipos['Lead Mgr'].str. 


Renshaw' 


ipos.loc[ipos['Lead Mgr'].str. 
ipos.loc[ipos['Lead Mgr'].str. 


Fitzgerald' 


ipos.loc[ipos['Lead Mgr'].str. 


Sachs' 


contains('P. Morg'), 'Lead Mgr'] = 'JP Morgan' 
.contains('PM'), 'Lead Mgr'] = 'JP Morgan' 

contains('JN.PN.'), 'Lead Mgr'] = 'JP Morgan' 
contains('Banc of'), 'Lead Mgr'] = 'Banc of 
contains('Lych'), 'Lead Mgr'] = 'BofA Merrill 


contains('Merrill$'), 'Lead Mgr'] - 'Merrill 


contains('Lymch'), 'Lead Mgr'] = 'Merrill 
contains('A Merril Lynch'), 'Lead Mgr'] = 
contains('Merril '), 'Lead Mgr'] = 'Merrill 
contains('BofA$'), 'Lead Mgr'] = 'BofA 
contains('SANDLER'), 'Lead Mgr'] = 'Sandler 
contains('Sandler'), 'Lead Mgr'] = 'Sandler 


contains('Renshaw'), 'Lead Mgr'] = 'Rodman & 


contains('Baird'), 'Lead Mgr'] = 'RW Baird' 


contains('Cantor'), 'Lead Mgr'] = 'Cantor 


contains('Goldman'), 'Lead Mgr'] = 'Goldman 
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ipos.loc[ipos['Lead Mgr'].str.contains('Bear'), 'Lead Mgr'] = 'Bear 
Stearns' 

ipos.loc[ipos['Lead Mgr'].str.contains('BoA'), 'Lead Mgr'] = 'BofA Merrill 
Lynch' 

ipos.loc[ipos['Lead Mgr'].str.contains('Broadband'), 'Lead Mgr'] - 
'Broadband Capital' 

ipos.loc[ipos['Lead Mgr'].str.contains('Davidson'), 'Lead Mgr'] = 'DA 
Davidson' 

ipos.loc[ipos['LeadMgr'].str.contains('Feltl'), 'Lead Mgr'] = 'Feltl &Co.' 


ipos.loc[ipos['Lead Mgr'].str.contains('China'), 'Lead Mgr'] - 'China 
International' 

ipos.loc[ipos['Lead Mgr'].str.contains('Cit'), 'Lead Mgr'] = 'Citigroup' 
ipos.loc[ipos['Lead Mgr'].str.contains('Ferris'), 'Lead Mgr'] = 'Ferris 


Baker Watts' 

ipos.loc[ipos['Lead Mgr'].str.contains('Friedman|Freidman|FBR'), 'Lead 
Mgr'] = 'Friedman Billings Ramsey' 

ipos.loc[ipos['Lead Mgr'].str.contains('^I-'), 'Lead Mgr'] = 'I-Bankers' 
ipos.loc[ipos['Lead Mgr'].str.contains('Gunn'), 'Lead Mgr'] = 'Gunn Allen' 
ipos.loc[ipos['LeadMgr'].str.contains('Jeffer'), 'Lead Mgr'] = 'Jefferies' 
ipos.loc[ipos['Lead Mgr'].str.contains('Oppen'), 'Lead Mgr'] = 


'Oppenheimer' 

ipos.loc[ipos['Lead Mgr'].str.contains('JMP'), 'Lead Mgr'] = 'JMP 
Securities' 

ipos.loc[ipos['Lead Mgr'].str.contains('Rice'), 'Lead Mgr'] = 'Johnson 
Rice' 


ipos.loc[ipos['Lead Mgr'].str.contains('Ladenburg'), 'Lead Mgr'] - 
'Ladenburg Thalmann' 


ipos.loc[ipos['Lead Mgr'].str.contains('Piper'), 'Lead Mgr'] = 'Piper 
Jaffray' 

ipos.loc[ipos['Lead Mgr'].str.contains('Pali'), 'Lead Mgr'] = 'Pali 
Capital' 

ipos.loc[ipos['Lead Mgr'].str.contains('Paulson'), 'Lead Mgr'] = 'Paulson 
Investment Co.' 

ipos.loc[ipos['Lead Mgr'].str.contains('Roth'), 'Lead Mgr'] = 'Roth 
Capital' 

ipos.loc[ipos['Lead Mgr'].str.contains('Stifel'), 'Lead Mgr'] = 'Stifel 
Nicolaus' 
ipos.loc[ipos['LeadMgr'].str.contains('SunTrust'), 'Lead Mgr'] = 'SunTrust 
Robinson' 

ipos.loc[ipos['Lead Mgr'].str.contains('Wachovia'), 'Lead Mgr'] - 
'Wachovia' 

ipos.loc[ipos['Lead Mgr'].str.contains('Wedbush'), 'Lead Mgr'] = 'Wedbush 


Morgan' 
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ipos.loc[ipos['Lead Mgr'].str.contains('Blair'), 'Lead Mgr'] = 'William 
Blair' 
ipos.loc[ipos['Lead Mgr'].str.contains('Wunderlich'), 'Lead Mgr'] 


'Wunderlich' 
ipos.loc[ipos['Lead Mgr'].str.contains('Max'), 'Lead Mgr'] = 'Maxim Group' 
ipos.loc[ipos['Lead Mgr'].str.contains('CIBC'), 'Lead Mgr'] = 'CIBC' 


ipos.loc[ipos['Lead Mgr'].str.contains('CRT'), 'Lead Mgr'] = 'CRT Capital' 
ipos.loc[ipos['Lead Mgr'].str.contains('HCF'),'Lead Mgr'] = 'HCFP Brenner' 
ipos.loc[ipos['LeadMgr'].str.contains('Cohen'), 'Lead Mgr'] = 'Cohen &Co.' 


ipos.loc[ipos['LeadMgr'].str.contains('Cowen'), 'Lead Mgr'] = 'Cowen &Co.' 
ipos.loc[ipos['Lead Mgr'].str.contains('Leerink'), 'Lead Mgr'] = 'Leerink 
Partners' 


ipos.loc[ipos['LeadMgr'].str.contains('LynchWNxca'), 'Lead Mgr'] = 'Merrill 
Lynch' 


此 过 程 完 成 之 后 ， 你 可 以 再 次 运行 以 下 代码 来 但 看 更 新 后 的 列表 。 


for n in pd.DataFrame (ipos['Lead Mgr'].unique(), 
columns-['Name']).sort values('Name')['Name']: 


print (n) 
上 述 代码 生成 图 4-24 的 输出 。 


AG Edwards 

Adams Harkness 

Advest 

Aegis Capital 

Anderson & Strudrick 
Axiom Capital Management 
BB&T Capital Markets 

BMO Capital Markets 

Banc of America 


Barclays 


Bear Stearns 

BofA Merrill Lynch 
Broadband Capital 
Burnham Securities 
C&Co 

C.E. Unterberg, Towbin 
CIBC 

CRT Capital 

CSFB 

Canaccord Genuity 





图 4-24 





我 们 可 以 看 到 ， 列 表现 在 是 整齐 划一 的 了 。 这 点 完成 后 ， 我 们 将 增加 承销 商 的 数量 。 


ipos['Total Underwriters'] —-ipos['Lead/Joint-Lead Mangager'] .map (lambda x: 
len(x.split('/'))) 
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ipos['Week Day'] = ipos['Date'].dt.dayofweek.map((0:'Mon', 1:'Tues', 
2:'Wed',WN 

3:'Thurs', 4:'Fri', b5:'Sat', 6:'Sun']) 

ipos['Month'] = ipos['Date'].map(lambda x: x.month) 

ipos['Month'] = ipos['Month'].map((1:'Jan', 2:'Feb', 3:'Mar', 4:'Apr', 
5:'May', 6:'Jun',7:'Jul',N 

8:'Aug', 9:'Sep', 10:'Oct', 11:'Nov', 12:'Dec')) 

ipos 


上 述 代码 生成 图 4-25 的 输出 。 


NEL. 
SUE MICREUYRUT gs 普 | 行 前 一 天 


3e l.p ` 
价 相 比 | 盘 价 相 比 变 | “变化 “| 一 周 变 化 | 收盘 到 次 | ERA 星期 几 | 月份 


2 


的 变化 | 化 的 比例 日 开盘 变 


化 百分比 
EN 
图 4-25 


如 果 所 有 的 事情 都 是 按 预 期 进行 ， 我 们 的 DataFrame 应 该 看 起 来 像 图 4-25 WE. R 
们 现在 补充 几 个 最 终 的 特征 ， 涉 及 发 行 价 和 开盘 价 之 间 的 变化 ， 以 及 发 行 价 和 收盘 价 之 间 
的 变化 。 

ipos['Gap Open Pct'] = (ipos['$ Chg Opening'].astype('float')/ipos['Opening 


Price'].astype('float')) * 100 
ipos['Open to Close Pct'] = (ipos['$ Chg Close'].astype('float') -\ 














ipos['$ Chg Opening'].astype('float'))/N 
ipos['Opening Price'].astype('float') * 100 


ME, RERNE fo. DAGSUBDHBSITWOAH HI. HERAB A RALA 
是 可 以 加 入 更 多 的 特征 。 不 过 ， 在 这 里 让 我 们 以 这 些 特征 开始 。 

将 这 些 特征 提供 给 模型 之 前 ， 我 们 需要 考虑 选择 哪些 特征 。 我 们 必须 非 第 小 心 ， 不 要 
在 添加 时 特征 时 “ 讷 露 ” 了 信息 。 这 是 一 个 利 见 的 错误 ， 当 问 模 型 提供 信息 的 时 候 ， 上 所 用 
的 数据 在 当时 其 实 是 无 法 获得 的 ， 这 时 候 束 会友 生 信息 “泄露 ”。 例如， 将 收盘 价 添加 到 我 
们 的 模型 将 使 辐 果 完 全 无 效 。 如 来 这 样 做 ,实际 上 我 们 是 为 模型 提供 了 它 试 图 预测 的 管 采 。 
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通常 ， 泄 圳 的 错误 比 这 个 例子 更 微妙 一 些 ， 但 无 论 如 何 ， 我 们 需要 注意 这 点 。 
我 们 将 添加 以 下 特征 。 
eH; (Month). 
e 必 期 几 (Week Day). 
e 主 要 承销 疝 (Lead Mgr). 
。 承 销 商 总 数 〈Total Underwriters ) 。 
e 发 行 价 到 开盘 价 的 差距 百分比 (Gap Open Pet). 
发 行 价 到 开盘 价 的 美元 变化 量 ($ Chg Opening). 
。 发 行 价 COffer Price). 
eJ AL COpening Price). 
标准 普尔 指数 从 收盘 到 开盘 的 变化 百分比 (SP Close to Open Chg Pet). 
e 标 准 普尔 指数 前 一 周 的 变化 (SP Week Change). 
完善 模型 所 需 的 全 部 特征 后 ， 我 们 将 其 准备 好 以 供 模型 使 用 。 我 们 将 使 用 Patsy E- 


如 果 需 要， 可 以 使 用 pip £?7& Patsy» Patsy 以 原始 的 形式 获取 数据 ， 并 将 其 转换 为 适用 
于 统计 模型 构建 的 矩阵 。 

from patsy import dmatrix 

X = dmatrix('Month + Q("Week Day") + Q("Total Underwriters") + Q("Gap Open 

Pct") + Q("$ Chg Opening") +\ 

Q("Lead Mgr") + Q("Offer Price") + Q("Opening Price") +\ 

Q("SP Close to Open Chg Pct") + Q("SP Week Change")', data-ipos, 

return type-'dataframe') 

X 


上 述 代码 生成 图 4-26 的 输出 。 


我 们 可 以 看 到 Patsy 已 经 将 分 类型 数据 重 狐 配 置 为 多 列 ， 而 将 连续 的 数据 保存 在 单个 
列 中 。 这 种 操作 被 称 为 虚构 编码 。 在 这 种 格式 中 ， 每 个 月 都 会 得 到 属于 目 己 的 列 。 对 于 每 
个 代理 而 言 同 样 如 此 。 例 如 ， 如 果 特 定 的 IPO 样 例 〈 某 一 行 ) Æ May 这 个 月 发 行 ， 那 么 它 
在 May 这 个 列 的 值 吏 为 1， 而 该 行 所 有 其 他 月 份 的 列 值 都 为 0。 对 于 分 关 型 的 特征 ， 总 是 
A n1 个 特征 列 。 被 排除 的 列 成 为 了 基线 ， 而 其 他 的 将 和 这 个 基线 进行 比较 。 


最 后 ，Patsy 还 添加 了 一 个 截 距 列 。 这 和 回归 模型 正 滑 运行 所 需 的 第 一 个 列 。 








Q("Lead Q("Lead 
Mgr") Mgr") 





cs 
图 4-26 


这 步 完 成 后 ， 我 们 将 进入 建 模 阶 段 。 


4.3 二 元 分 类 








我 们 试图 预测 IPO 是 否 值得 购买 ， 而 不 是 答 试 准确 地 预测 第 一 天 的 总 收益 是 多 少 。 这 
里 ， 我 们 应 该 指出 这 里 所 做 的 不 是 投资 建议 ， 其 
目的 只 是 为 了 说 明 茶 个 和 案例。 请 不 要 使 用 这 个 醒 
型 开始 随意 地 进行 IPO 交易 。 后 果 会 非常 严重 。 
现在 ， 为 了 预测 三 进 制 的 结果 ( 即 1 或 0， 是 或 
T), 我 们 将 从 称 为 风 辑 回归 (logistic regression) 
的 模型 开始 。 泌 辑 回归 使 用 了 逻辑 图 数 。 这 是 很 
理想 的 选择 ,因为 馆 辑 回归 有 几 个 数学 属性 , 使 
其 易于 使 用 ， 如 图 4-27 所 示 。 

由 于 逻辑 函数 的 形式 ， 它 特别 适合 于 提供 概 
率 的 估计 ， 以 及 依据 这 些 估计 的 二 进 制 响应 。 任 何 大 于 0.5 的 被 分 类 为 1， 而 任何 低 于 0.5 
的 被 分 类 为 0。 这 些 1 和 0 可 以 对 应 任何 我 们 想 要 分 类 的 事物 ， 不 过 在 这 个 应 用 程序 中 ， 
ECK RERI TEITH EKA A) 还 十 不 买 入 0)。 

继续 下 一 步 ， 在 我 们 的 数据 上 使 用 这 个 模型 。 我 们 通过 有 点 不 同 寻 第 的 方式 ， 将 数据 
进行 拆 分 。 机 器 学 习 模 型 的 标准 做 法 是 随机 地 决定 哪些 实例 作为 模型 的 训练 数据 ， 而 哪些 
实例 被 用 作 测 斌 数据。 但 是 ， 由 于 这 里 的 数据 是 基于 时 间 的 , 因此 我 们 将 使 用 除 今年 42015 
E) 之 外 的 所 有 数据 进行 训练 。 然 后 在 2015 年 年 初 至 今 的 数据 上 进行 测试 。 


















































104 455 4 3E (JE E $8 E JH RU] IPO 市 场 


# 2188 是 第 一 个 2015 年 数据 的 索引 号 ， 数 据 是 按照 日 期 排序 的 

X train, X test = X[:2188], X[2188:] 

y train = ipos['$ Chg Open to Close'][:2188].map(lambda x: 1 if x >= 1 else 0) 
y test = ipos['$ Chg Open to Close'] [2188:] .map (lambda x: 1 if x >= 1 else O0) 


使 用 上 面 的 代码 ， 我 们 将 数据 分 成 训练 集 和 测试 集 。 请 注意 我 们 主观 地 为 正 同 结果 设 
置 了 1 美元 的 国 值 。 这 是 为 了 员 彻 这 个 策略 : 瞄准 长 尾 中 的 赢家 ， 而 不 是 任何 收益 大 于 0 
的 收盘 。 

现在 ， 我 们 将 拟 合 访 模型， 方法 如 下 所 示 。 


clf = linear model.LogisticRegressionY() 





clf.fit(X train, y train) 
上 上面 的 代码 将 生成 图 4-28 的 输出 。 


LogisticRegression(C-1.0, class weight-None, dual-False, fit intercept-True, 
intercept scaling-1, max iter-100, multi class-'ovr', n jobs-1l, 


penalty-'12', random state-None, solver-'liblinear', tol-0.0001, 
verbose-0, warm start-False) 





4-28 


我 们 现在 可 以 在 预 留 的 2015 年 数据 上 ， 评 估 模 型 的 表现 。 

clf.score(X test, y test) 

上 面 的 代码 将 生成 图 4-29 的 输出 。 

从 图 4-29 中 ， 我 们 可 以 看 出 82% 的 预测 是 准确 的 。 对 于 2015 年 而 言 ， 这 当然 是 优 于 
我 们 基本 策略 的 预 出 ， 但 这 也 可 能 是 市 有 误导 性 的 结果 ， 因 为 实际 上 获 益 超过 1 美元 的 IPO, 
其 比例 是 非常 低 的 。 这 意味 看 对 于 所 有 PO 都 将 其 预测 猜测 为 0， 也 会 给 我 们 相同 的 结果 ， 
不 过 ， 这 里 让 我 们 比较 一 下 两 者 的 区 别 。 

自 先 我 们 的 基本 策略 如 下 。 

ipos[ (ipos['Date']>='2015-01-01')]['$ Chg Open to Close'].describe() 


上 述 代 人 码 生成 图 4-30 的 输出 。 








000000 
.229524 
.686850 


.160000 
.645000 
000000 
.665000 
0.8231292517006803| gj. 040000 





图 4-29 图 4-30 
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接 下 来 ， 我 们 将 处 理 预 负 的 结 采 。 首 先 使 用 结 末 设置 一 个 数据 框 ， 然 后 输出 它们 。 


pred label = clf.predict(X test) 
results-[] 





for pl, tl, idx, chg in zip(pred label, y test, y test.index, 
ipos.ix[y test.index]['$ Chg Open to Close']): 

if pl -- tl: 

results.append([idx, chg, pl, tl, 1]) 

else: 

results.append([idx, chg, pl, tl, 0]) 

rf = pd.DataFrame(results, columns-['index', '$ chg', 'predicted', 
'actual', 'correct']) 

rf 


上 述 代 人 码 生 成 图 4-31 的 输出 。 
rf[rf['predicted']--1]['$ chg'].describe() 


上 述 代 码 生 成 图 4-32 的 输出 。 


a | 变化 名 : ER -— 
标准 差 .512992 
e |2194 |110 Jo | f1 — jg -2.800000 
25% .080000 
最 大 值 .040000 
9 -0. 1 


o Name: $ chg, dtype: float64 

















图 4-31 图 4-32 


所 以 ， 总 数 从 147 REAPERI 6 次 买 入 。 我 们 的 平均 值 从 0.23 美元 上 涨 到 2.99 美元 ， 
但 我 们 的 中 位 数 从 0 美元 下 降 到 -0.02 美元 。 让 我 们 看 看 回报 的 图 表 。 

fig, ax = plt.subplots(figsize-(15,10)) 

rf[rf['predicted']--1]['$ chg'].plot(kind-'bar') 

ax.set title('Model Predicted Buys', y-1.01) 

ax.set ylabel('$ Change Open to Close") 








ax.set xlabel('Index') 


上 述 代码 生成 图 4-33 的 输出 。 
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模型 预测 的 买 入 





x 
e 
2 
HE 
E 
[En 
HE 
d 








图 4-33 


从 图 4-33 KÆ, ICT BATTLE HP T UOI CAR ERU LUCBOI IMK e 
我 们 对 和 模型 的 测试 还 不 是 很 充分 。 我 们 可 能 只 是 非 芝 幸运 地 抓 住 了 这 次 胜利 。 还 需要 评 佑 
模型 的 鲁 棒 性 。 我 们 可 以 通过 几 个 方面 来 实现 这 点 ， 这 里 仅仅 做 两 件 事情 。 首 先 ， 我 们 将 
BEMA 1 KIRE 0.25 美元 ， 看 看 模型 怎么 反应 。 

X train, X test = X[:2188], X[2188:] 

y train = ipos['$ Chg Open to Close'][:2188].map(lambda x: 1 if x >= .25 else O0) 


y test = ipos['$ Chg Open to Close'] [2188:] .map (lambda x: 1 if x >= .25 else 0) 
clf = linear model.LogisticRegressionY() 




















clf.fit(X train, y train) 
clf.score(X test, y test) 


现在 我 们 来 检查 一 下 结 
pred label = clf.predict(X test) 

results-[] 

for pl, tl, idx, chg in zip(pred label, y test, y test.index, 
ipos.ix[y test.index]['$ Chg Open to Close']): 

if pl -- tl: 

results.append([idx, chg, pl, tl, 1]) 
else: 


results.append([idx, chg, pl, tl, 0]) 
rf = pd.DataFrame(results, columns-['index', '$ chg', 'predicted', 
'actual', 'correct']) 
rf[rf['predicted']--1]['$ chg'].describe() 


上 述 代 码 生 成 图 4-35 的 输出 。 


从 结 末 来 看 ， 我 们 的 准确 率 和 平均 值 部 下 降 了 。 但 是 ， 我 们 的 统计 数量 从 6 上 升 到 了 
25， 而 且 仍 然 远 蜗 于 基础 集 略 的 结果 。 让 我 们 再 做 一 个 测试 。 现 在 将 2014 ERIZE A ILZ 
数据 中 删除 ， 并 将 其 加 入 测试 数据 中 。 

X train, X test = X[:1900], X[1900:] 

y train = ipos['$ Chg Open to Close'][:1900].map(lambda x: 1 if x >= .25 else O0) 


y test = ipos['$ Chg Open to Close'] [1900:] .map (lambda x: 1 if x >= .25 else 0) 
clf = linear model.LogisticRegressionY() 





clf.fit(X train, y train) 
clf.score(X test, y test) 


上 述 代码 生成 图 4-36 的 输出 。 


count 25.000000 
mean .,820800 
std .520852 
min .160000 


258 .000000 
50$ .090000 
758 .120000 
max 20.040000 
Name: $ chg, dtype: float64 





0.62068965517241381 


图 4-35 图 4-36 


HARA 


pred label = clf.predict(X test) 
results-[] 
for pl, tl, idx, chg in zip(pred label, y test, y test.index, 
ipos.ix[y test.index]['$ Chg Open to Close']): 
if pl -- tl: 
results.append([idx, chg, pl, tl, 1]) 
else: 
results.append([idx, chg, pl, tl, 0]) 
rf = pd.DataFrame(results, columns-['index', '$ chg', 'predicted', 
'actual', 'correct']) 
rf[rf['predicted']--1]['$ chg'].describe() 


上 述 代码 生成 图 4-37 的 输出 。 
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.000000 
.876944 


: floató64 





随 着 2014 年 的 数据 放 入 测试 集合 , 我 们 可 以 看 到 虽然 平均 值 有 所 下 降 , 但 模型 的 表现 
仍然 要 好 于 投资 每 一 笔 PO 的 简单 方法 ， 有 具体 如 表 4-1 所 示 。 


表 4-1 








现在 让 我 们 继续 观察， 模型 中 哪些 特征 是 最 重要 的 。 


4. 4 特征 的 重要 性 








哪些 特征 增加 了 一 个 肥 行 股 未 来 成 功 的 概率 ? 不 蔷 的 是 ， 对 于 这 个 问题 没有 简单 的 答 
案 。 不 过 ， 我 们 将 探讨 两 种 方法 ， 来 评估 这 一 点 。 由 于 我 们 建立 模型 时 采用 的 是 多 辑 回 归 ， 
所 以 可 以 观察 每 个 特征 参数 的 相关 系数 。 请 记 住 馆 辑 函 数 使 用 的 是 以 下 形式 。 

In(p/1l-p) = Bot Bix 

XE, p 表示 正 辣 结果 的 概率 ，Bo EEUE, Bi 是 特征 的 系数 。 一 旦 我 们 拟 合 了 模型 ， 

就 可 以 检查 这 些 系数 。 现 在 立即 获取 它们 。 


f fv = pd.DataFrame(X train.columns, clf.coef .T).reset index() 











fv.columns - ['Coef', 'Feature'] 
fv.sort values('Coef', ascending-O0).reset index (drop-True) 
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上 述 代码 生成 图 4-38 的 输出 。 

对 于 分 类 型 的 特征 ， 特 征 系数 上 的 正 符 号 告诉 我 们 当 这 个 特征 存在 时 ， 相 对 于 基线 而 
言 它 增加 了 正 同 结束 的 概 靳 。 对 于 连续 性 的 特征 ， 正 号 表示 该 特征 值 的 增加 ， 会 导致 正 同 
结 末 的 概率 增加 。 系 数 的 大 小 告诉 我 们 概率 增加 的 幅度 。 让 我 们 来 看 看 星期 几 这 个 特征 。 

fv[fv['Feature'].str.contains('Week Day')] 


上 述 代码 生成 图 4-39 的 输出 。 


coet rm 
o rosses artesa vor Toe Urarea Toar 
1 [1.022947 | Q("Lead Mgr")[T.Morgan Keegan] 

» [ume orumewenmem d 
3 [0.815448 | Q("Lead Mgr"^)[T.China International] 








A— | — | ~ 
— |] w | ~ 


— 
— 


ees c 
bs |a 
beers a 


[T.Merrill Lynch] 


— 


"Lead Mgr" 


"Lead Mgr^)[T.Burnham Securities] 


A— | A 


"Lead Mgr")[T.Anderson & Strudrick] 


— | x | — | ~ 


0.595898 |Q("Lead Mgr")[T.FIG Partners] 
0.538498 |Q('Lead Mgr")[T.Sanders Morris Harris] 


4-38 图 4-39 


从 图 4-38 中 ， 我 们 可 以 看 出 没有 星期 五 。 这 意味 着 星期 五 是 所 有 其 他 同类 特征 用 于 比 
较 的 基线 。 我 们 也 看 到 了 根据 这 里 的 模型 ， 周 四 增加 了 IPO 成 功 的 几率 。 

重要 的 是 ， 系 数 并 不 代表 相对 于 基线 ， 和 概率 实际 增加 了 多 少 。 为 了 得 到 这 个 值 ， 我 们 
必须 取 其 指数 。 相 对 于 周 五 ， 周 四 概率 的 增加 为 e(0.053885) = 1.055。 这 意味 着 如 果 保 持 所 
有 其 他 因素 不 变 , 周 四 出 现 一 个 成 功 IPO 的 可 能 性 比 星期 五 的 高 出 5.5%。 我 们 也 可 以 看 到 
对 于 IPO 而 言 ， 星 期 一 是 最 糟糕 的 一 天 ，e(-0.132437) = 0.876， 也 就 是 出 现成 功 IPO 的 概 
率 下 降 约 12.4%。 

回 到 特征 的 重要 性 ， 你 很 可 能 认为 ,在 这 个 时 候 可 以 拿 出 具有 最 大 正 系数 的 那些 特征 ， 
将 它们 扔 到 模型 里 ， 然 后 你 就 会 拥有 主宰 新 股市 场 的 一 切 了 。 别 急 着 下 结论 。 


让 我 们 看 看 基于 正 系 数 大 小 的 前 两 个 特征 。 
ipos[ipos['Lead Mgr'].str.contains('Keegan|Towbin')] 


上 述 代码 生成 图 4-40 的 输出 。 


— 
w 


— 
— 





H3 0.053885 
15 | -0.039074 | Q("Week Day")[T.Wed] 


—' 
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标 普 在 发 
ERE HH : LT] | 收盘 价 | 收盘 价 和 开 | di 行 前 一 天 
FRA len| n Dedi Hi 和 开盘 | 盘 价 相 比 变 收盘 到 次 
/联席 主 承销 变 HIS 化 的 比例 | 变化 | 日 开盘 变 
的 变化 化 百分比 

James 


Advanced C.E. Unterberg, 
Life ADLS  |Towbin/ThinkEquity | 5.0 19.284294 | 1.777992 |0.000000 
^ | Sciences Partners 
2007- | Rosetta C.E. Unterberg, 
884 : ROSG ] 7.0 T.02 T.32 4.5; |0.02 0.32 0.30 [4.273504 /|0.363086 |-0.010330 
02-26 | Genomics Towbin 
2011- | Fidus 
1467 FDUS |Morgan Keegan 15.0 |14.75 15.00 |0.00 |-0.25 0.00 /|..|0.25 [1.694915 |-3.693126 | -0.003091 
06-22 | Investment 


图 4-40 





我 们 的 前 两 个 特征 代表 了 四 次 IPO 的 总 和 。 这 就 是 为 什么 很 难 从 逻辑 回归 模型 提取 信 
恩 ， 特 别 是 这 么 复杂 的 模型 。 


然而 ， 并 不 是 没有 任何 希望 了 。 我 们 可 以 利用 夯 一 种 称 为 随机 秩 林 分 关 需 的 模型 ， 来 
获得 重 RM 深入 说 明 这 个 模型 是 如 何 运 作 的 ， 但 它 会 给 出 和 效 辑 回归 柑 
型 相似 的 结果 ， 此 外 ， 它 还 将 附 市 提供 一 个 非常 好 的 电 结 ， 告 诉 我 们 哪些 特征 对 正 问 结 来 
的 影响 最 大 。 


使 用 与 前 面相 同 的 训练 和 调试 数据 集 ， 我 们 将 拟 合 随机 森林 分 类 需 。 


clf rf = RandomForestClassifier(n estimators-1000) 
clf rf.fit(X train, y train) 
f importances = clf rf.feature importances 








f names = X train 

f std = np.std([tree.feature importances for tree in clf rf.estimators ], 
axis-O0) 

zz — zip(f importances, f names, f std) 

zzs — sorted(zz, key-lambda x: x[0], reverse-True) 

imps = [x[0] for x in zzs[:20]] 

labels = [x[1] for x in zzs[:20]] 

errs = [x[2] for x in zzs[:20]] 

pit.subplots(figsize-(15,10)) 

pit.bar(range(20), imps, color="r", yerr-zerrs, align="center") 
pit.xticks(range(20), labels, rotation--70); 


述 代 人 码 生 成 图 4-41 的 输出 。 
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图 4-41 


这 里 的 输出 癌 我 们 提供 了 一 个 包含 每 个 特征 误差 条 的 排序 列表 ， 用 于 表明 特征 的 重要 
性 。 观 察 这 份 列表 ， 以 “gap opening percentage” 和 “dollar change from opening” 开 头 的 排 
序 看 上 去 非常 合理 。 





4.5 INE 


本 章 我 们 已 经 讨论 了 很 多 方面 的 内 容 ， 但 只 是 简单 地 了 解 了 如 何 构建 这 关 模 型 。 币 望 
你 已 经 更 好 地 理解 了 建 模 的 过 程 ， 从 清理 数据 ， 到 进行 特征 工程 ， 到 测试 数据 。 和 希望 你 可 
以 使 用 这 些 信息 目 行 扩展 模型 并 加 以 改进 。 

在 下 一 半 中 ， 我 们 将 注意 力 转 同 为 一 个 不 同 的 领域 ， 也 就 是 从 数值 型 数据 切换 a 到 基于 
文本 的 数据 。 
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我 很 爱 阅 读 。 甚 至 可 以 说 有 些 狂热 。 兽 经 有 些 日 子 ， 我 仔细 阅读 了 上 百 篇 的 文章 。 尺 
党 如 此 ， 我 还 是 经 和 常 友 现 日 己 读 不 完 搜 索 到 的 信息 。 我 忆 是 怀疑 目 己 错过 了 一 些 有 趣 的 事 
情 ， 从 而 导致 知识 库 中 永远 存在 一 些 空白 ! 


如 果 你 患 有 类 似 的 钙 状 ， 不 要 害 介 ， 因 为 在 本 重 中 ， 我 要 揭露 一 个 简单 的 等 门 ， 瑚 助 
你 找到 想 要 阅读 的 所 有 了 文章， 同时 让 你 避免 在 大 量 不 感 兴 趣 的 内 容 上 浪费 时 间 。 


在 这 一 草 的 结尾 ， 你 将 学 会 如 何 构建 一 个 能 理解 你 对 新 闻 豆 好 的 系统 ， 并 每 天 回 你 友 
送 一 个 私人 定制 的 新 闻 通 讯 。 


下 列 是 我 们 将 在 本 章 涵 新 的 内 容 。 

。 使 用 Pocket 应 用 程序 创建 监督 训练 的 集合 。 
oÑ] H] Pocket API 来 获取 故事 。 

e。 使 用 smbedq.1LIyAPI 来 提取 故事 主体 。 

。 上 自然 语言 处 理 的 基础 。 

。 文 持 问 量 机 。 

eIFTTT 与 RSS 源 以 及 Google 表单 的 集成 。 
。 建 也 每 日 的 个 性 化 新 闻 通 讯 。 


5.1 使 用 Pocket 应 用 程序 ， 创 建 一 个 监督 训练 的 集合 


























在 我 们 可 以 创建 自己 对 新 闻 稳 的 可 好 模型 之 前 ， 需 要 用 于 训练 的 数据 。 这 些 训练 数据 
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将 锐 输 入 到 我 们 的 模型 中 ， 以 教导 该 模型 区 分 我 们 感 兴趣 的 和 不 感 兴趣 的 文章 。 为 了 构建 
这 个 语料库 ， 我 们 需要 标注 大 量 与 这 些 兴 趣 相关 的 文章 。 对 于 每 扁 文 草 ， 我 们 将 其 标记 为 
“y” 或 “n” 这 将 指示 该 文章 是 否 应 该 出 现在 发 送 给 我 们 的 每 日 摘要 中 。 

为 了 简化 这 个 过 程 ， 我 们 将 使 用 Pocket 应 用 程序 。Pocket 是 一 个 允许 你 你 和 存 故事 以 供 
稍 后 阅读 的 应 用 程序 。 你 只 需 安 装 浏 览 囊 扩展 插件 ， 然 后 当 和 希望 保存 故 事 的 时 候 ， 单 击 浏 
Vds LUE UBI] Pocket 图 标 。 这 搞 文 草 束 被 保 存 到 了 你 的 个 人 资料 库 。 对 于 我 们 的 目的 而 
言 ，Pocket 一 个 强大 的 功能 是 它 还 能 够 你 存 你 所 选择 的 标签 。 我 们 将 使 用 此 功能 ， 将 感 兴 
趣 的 文章 标记 为 “y” 而 不 感 兴 趣 的 文章 标记 为 “n”。 


5.1.1 安装 Pocket 的 Chrome 扩展 程序 

















我 们 在 这 里 使 用 Google Chrome， 其 他 浏览 器 应 该 类 似 。 对 于 Chrome， 进 入 Google App 
Store， 然 后 查找 Extensions 部 分 ， 如 图 5-1 Br. 


má . : 
offered by getpocket.com : 4» available for Android Get it » Productivity 


Pocket Extension for Chrome - The best way to save articles, videos and more Ark + (5360) 


pocket 





5-] 





单 击 蓝 色 的 Add to Chrome 按钮 。 如 果 你 已 经 有 一 个 Pocket 账户 了 ， 那 么 请 登录 ， 如 
果 你 还 没有 账户 ， 请 继续 注册 (人 免费 )。 一 旦 完成 ， 你 应 该 可 以 看 到 浏览 器 右上 角 的 Pocket 
图 标 。 图 标 将 变 灰 ， 不 过 一 旦 有 你 想 要 保存 的 文章 ， 驶 可 以 单 击 它 。 文 章 保存 之 后 ， 它 惑 
会 变 成 红色 。 

如 图 5-2 所 示 ， 在 右上 角 可 以 看 到 灰色 的 图 
标 。 当 图 标 被 单 击 时 ， 它 变 为 红色 ， 表 示 文 章 已 
经 被 保存 。 5-2 

现在 有 趣 的 部 分 开始 了 ! 开始 保存 所 有 你 看 到 的 文章 。 对 于 有 趣 的 那些 打上 “y7” 的 
标签 ， 对 于 无 趣 的 那些 打上 “n” 的 标签 。 这 需要 一 点 工作 量 。 监 督学 习 最 终结 果 的 好 坏 
取决 于 你 的 训练 集 ， 所 以 你 圾 要 标记 数 百 篇 文章 来 获得 好 的 效果 。 如 果 在 保存 某 篇 文章 
时 你 瑟 记 给 它 打 标 答 了 ， 那 么 你 可 以 去 这 个 网 站 对 其 进行 标记 : 
http://www.get.pocket.com. 





(2 Page Saved 
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5.1.2 使 用 Pocket API 来 检索 故事 


现在 你 已 经 很 勤奋 地 将 文章 都 保存 到 了 了 Pocket， 下 一 步 是 检索 它们 。 为 了 实现 这 一 点 ， 
我 们 将 使 用 Pocket API。 你 可 以 在 https://getpocket.com/developer/apps/new 
注册 一 个 新 账户 “。 如 图 5-3 所 示 ， 单 击 左上 角 的 Create New App 并 填写 详细 信息 以 获取 你 
的 API 密 铀 。 请 务必 选择 所 有 的 权限 ， 这 样 你 才 可 以 深 加 、 更 改 和 检索 文章 。 


O O C ket How to Save Blog Support My List 


APPS 
My Apps 


Cose INL ADO Create an Application 


Application Name: 
DOCUMENTATION This is the name of your application that will be displayed to users. 80 character max. 
Add 
Modify 
Remeve Application Description: 
Authentication 
Objective-C SDK 
Article View API 
Preferences API 


This is the description of your application that will be displayed to users. 120 character max. 


Permissions: 
Please select one or more permissions for your application below. 

GETTING STARTED Important: You cannot change permissions once they are set without generating a new set of 
keys. 

iOS/Mac 


Android Add: Add items to a user's list. 
Windows 8 Modify: Modify items in a user's list. 
Web 

Other Mobile 
Adding URLs 
Existing Developers 


Retrieve: Retrieve items from a user's list. 


Platforms: 
We'll generate keys for the platforms you select below. You must select at least one platform to 
get started and you can always add or remove platforms later. 


ADDITIONAL INFO iPhone iPad Mac 


Rate Limits Android - Mobile Android - Tablet Extension 
Error Handling Windows - Mobile Windows - Desktop Web 
Migrating Accounts to OAuth Mobile (other) Desktop (other) 

Application Naming 
Terms of Service 
Security 

Developer FAQ 
Developer Support 


| accept the Terms of Service. 
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一 旦 填写 完毕 并 提交 ， 你 将 收 到 CONSUMER KEY。 你 可 以 在 左上 角 的 My Apps 下 到 
它 。 看 上 去 束 如 图 5-4 的 截屏 所 示 ， 不 过 显然 你 会 得 到 一 个 真正 的 密 钥 。 














OFRE: 这 个 账户 是 使 用 API 的 开发 者 账户 ， 和 之 前 保存 文章 的 普通 账户 有 所 不 同 。 
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O O C ket How to Save Blog Support My List 


APPS 
My Apps 


Create a New App My Applications 


In Development 
DOCUMENTATION 
Overview 
Add 
Modify 
Retrieve 


My Custom Feed MY. SECRET. KEY 


Authentication 
Objective-C SDK CREATE AN APPLICATION 
Article View API 


Preferences API 


GETTING STARTED 
iOS/Mac 

Android 

Windows 8 

Web 

Other Mobile 

Adding URLs 

Existing Developers 


ADDITIONAL INFO 


Rate Limits 

Error Handling 

Migrating Accounts to OAuth 
Application Naming 

Terms of Service 

Security 

Developer FAQ 

Developer Support 





图 5-4 


— HE SEE. Tub PANES RE, SEfTBOBUR EE. RIMER. CRK 
你 输入 用 户 密 钥 和 重 定 同 的 网 址 。 重 定 癌 网 址 可 以 是 任何 链接 。 这 里 我 使 用 自己 的 Twitter 
账户 。 


import requests 





auth params = ('consumer key': 'MY CONSUMER KEY', 'redirect uri': 
'https://www.twitter.com/acombs'] 

tkn = requests.post('https://getpocket.com/v3/oauth/request', 
data-auth params) 

tkn.content 


这 将 产生 如 图 5-5 的 输出 。 
该 输出 将 包含 你 下 一 步 所 需 的 编码 U. 34 
以 下 内 容 放 在 浏览 器 的 地 址 栏 中 。 


https://getpocket.com/auth/authorize?request token-some long code&redire 





DZH: 图 5-5 中 some long code 所 代表 的 部 分 。 
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ct uri=https%3A//www.twitter.com/acombs 中 


如 果 你 将 重 定 向 的 URL 更 改 为 你 自己 的 网 址 ， 请 务必 对 其 进行 编码 。 对 于 此 有 一 些 可 
用 的 资源 。 一 个 选择 是 使 用 Python 的 urllib 库 ， 另 一 个 选择 是 使 用 免费 的 在 线 资源 。 


此 时 ， 你 应 该 会 看 到 一 个 授权 屏 医 。 继 续 并 批准 授权 ， 然 后 我 们 束 可 以 进入 下 一 步 。 


usr params = ('consumer key':'my consumer key', 'code': 

















'some long code') 

usr = requests.post('https://getpocket.com/v3/oauth/authorize', 
data-usr params) 

usr.content 


这 里 我 们 将 使 用 图 5-6 的 输出 编码 “进入 检索 故事 的 环节 。 





自 完 ， 我 们 检索 标记 为 “n” 的 故事 。 


no params = {'consumer key':'my consumer key', 'access token': 
'some super long code', 
'tag': 'n'] 
no result = requests.post('https://getpocket.com/v3/get', 
data-no params) 
no result.text 


上 述 代码 生成 图 5-7 的 输出 。 


u'("status":1,"complete":1,"1ist":("1167823383":("item id":"1167823383","resolved id":"116782 
3383","given url":"http:NM/NN/www.businessinsider.comWNM/gates-dont-expect-the-nuclear-agreeme 
nt-to-lead-to-a-more-moderate-iran-2016-1","given title":"GATES: Nuclear agreement won\'t lea 
d to moderate Iran - Business Insider","favorite":"0","status":"0","time added":"145325519 

8","time updated":"1453255217","time read":"0","time favorited":"0","sort id":0,"resolved tit 


le":"GATES: Don\'t expect the nuclear agreement to lead to a more moderate Iran","resolved ur 
1":"http: NV /NN/www.businessinsider.comNM/gates-dont-expect-the-nuclear-agreement-to-lead-to-a 


-more-moderate-iran-2016-1","excerpt":"Former US defense secretary Robert Gates isn*M't optimi 
stic that the landmark July 2015 nuclear deal with Iran will lead the countryNNu00a0to halt a 
ny of its disruptive policies in the Middle East or its support for terrorist groups.","is ar 
ticle":"1","is index" :"0","has video":"0","has image":"1","word count":"963"),"1167877560": 


5-7 





注意 在 这 里 ， 我 们 通过 所 有 标记 为 “n” 的 文章 获得 了 一 个 很 长 的 JSON FFR. H 
中 有 舌 干 个 主键 ， 不 过 现在 我 们 只 对 URL 感 兴趣 。 我 们 将 依据 此 ， 继 续 创 建 一 个 URL 
的 列表 。 


中 将 链接 中 的 some long code 蔡 换 为 你 获得 的 编码 。 
@ 这 里 的 输出 编码 some super long code 是 虚构 的 ， 只 是 用 于 示意 。 
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no jf = json.loads(no result.text) 
no jd = no jf£['1list'] 
no urls-[] 
for i in no jd.values(): 
no urls.append(i.get('resolved url')) 


no urls 


上 述 代 人 码 生 成 图 5-8 的 输出 。 


['http://www.slate.com/articles/double x/doublex/2016/01/kermit gosnell s atrocities aren t an argument for stricte 

r abortion laws.html', 
'http://bleacherreport.com/articles/2608872-australian-open-2016-results-winners-scores-stats-from-monday-singles-br 

acket', 
'http://www.slate.com/blogs/xx factor/2016/01/14/rihanna ahead of beyonc in the celebrity endorsement game.html', 


'http://www.nzherald.co.nz/nz/news/article.cfm?c id-1&objectid-11576760', 
'https://blogs.msdn.microsoft.com/oldnewthing/20160114-00/?p-292851', 
'https://www.washingtonpost.com/national/energy-environment/conservation-groups-demand-end-to-refuge-occupation/201 
6/01/19/bb83a94e-beff-11e5-98c8-7fab78677d51 story.html', 
'"httpn://www.ultimatenn.orca/index.html'. 
5-8 


这 个 列表 包含 所 有 我 们 不 感 兴趣 的 故事 的 URL。 现 在 ， 让 我 们 将 它 放 入 一 个 DataFrame 
对 象 并 将 其 如 此 标记 


import pandas 





no uf = pd.DataFrame(no urls, columns-['urls']) 
no uf = no uf.assign(wanted = lambda x: 'n') 


no uf 


上 述 代码 生成 图 5-9 的 输出 。 


o | http://netboot.xyz/ 


M https://theconversation.com/how-do-you-build-a-mirror-for-one-of-the-worlds-biggest-telescopes-4... 


E 


感 兴趣 


2 http://www.wsj.comf/articles/alcoa-to-delay-idling-of-washington-smelting-operation- 14532357 16 


3 http://www.nzherald.co.nz/nz/news/article.cfm?c. id-1&objectid-11576760 


g http://www.businessinsider.com/r-islamic-state-frees-270-0of-400-people-it-kidnapped-from-syrias-... 


5 | http:;//www.wsj.com/articles/johnson-johnson-plans-to-cut-6-of-workforce-1453205772 
6 | https://ramcloud.atlassian.net/wiki/display/RAM/RAMCloud+Papers NM 
http://mmajunkie.com/201 6/01/ronda-rousey-targets-holly-holm-rematch-in-2016-thats-what-i-want-t... 
5-9 
Y A— 
ME, PERRE CARA I. RIIIE RAI EET ERER G3 
ye_params = {'consumer_key': 'my_consumer_key', 'access_token' 





'some super long token', 

'tag': 'y'} 
yes result = requests.post('https://getpocket.com/v3/get', 
data-yes params) 
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yes jf json.loads(yes result.text) 


yes jd yes jf['list'] 

yes urls-[] 

for i in yes jd.values(): 

yes urls.append(i.get('resolved url')) 

yes uf = pd.DataFrame(yes urls, columns-['urls']) 
yes uf = yes uf.assign(wanted = lambda x: 'y') 


yes uf 


上 述 代 码 生 成 图 5-10 的 输出 。 


是 否 
感 兴趣 


o https:;//medium.com/the-development-set/the-reductive-seduction-of-other-people-s-problems-3c07b3... 


ao http:;//www.fastcompany.com/3054847/work-smart/can-exercise-really-make-you-grow-new-brain-cells 


a http://www.bbc.com/news/magazine-3529067 1 


a http://mobile.nytimes.com/201 6/01/08/fashion/mens-style/new-york-bachelors-yearn-for-more.html 


a http:;//www.fastcompany.com/3055019/how-to-be-a-success-at-everything/the-secret-to-making-anxiet... 
e https://medium.com/Gamimran/usability-as-the-enemy-badf5ed6453a45: .jxrdu7 xub 
http:;//www.fastcompany.com/3055282/why-its-totally-legal-to-dock-employees-pay-for-going-to-the-... 
8 | http://thenextweb.com/insider/2016/01/11/tinder-is-secretly-scoring-your-desirability-and-pickin... 





o http://www.theatlantic.com/science/archive/201 6/01 /fiber-gut-bacteria-microbiome/423903/ 
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现在 我 们 有 两 种 类 型 的 故事 作为 训练 的 数据 ， 将 它们 连接 到 同一 个 DataFrame. 


df = pd.concat([yes uf, no uf]) 
df .dropna (inplace-1) 
df 


上 述 代 码 生 成 图 5-11 的 输出 。 


ae sessio enna y 
me resmomie vimescomoioos isin ly 
CITXDETETTETUPTTTUMEN ly 


58 http://www.huffingtonpost.com/tim-ward/7-advan... NN 
59 http://www.cnn.com/2016/01/19/asia/peshawar-at... mo 
60 http://www.nytimes.com/2016/01/24/travel/green... n 





图 5-11 
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现在 ， 我 们 已 经 将 所 有 的 网 址 和 相应 的 标签 都 放 入 同一 个 数据 框 中 ， 接 下 来 要 下 载 每 
^u CST] HTML 内 容 。 我 们 将 使 用 男 一 个 称 为 embed.ly 的 免费 服务 。 


5.2 使 用 embed.ly API 下 载 故事 的 内 容 





我 们 拥有 了 所 有 故事 的 URL， 但 不 六 的 是 这 对 于 机 覃 训练 来 说 还 不 够 。 现 在 需要 整 篇 
文字 的 内 容 。 如 宁 我 们 需要 为 数 十 个 网 站 创建 目 己 的 朴 虫 ， 那 么 这 可 能 会 成 为 一 个 巨大 的 
挑 成 。 我 们 必须 编写 代码 来 定位 文章 的 正文 ， 同 时 小 心 回 避 围 纸 正 文 的 所 有 其 他 无 关内 容 。 
竺 运 的 是 ， 有 一 些 免 费 的 服务 将 为 我 们 实现 这 个 目标 。 这 里 将 使 用 embed.ly， 不 过 你 也 可 
以 使 用 一 些 其 他 的 服务 。 


第 一 步 是 注册 embed.ly API 的 访问 。 你 可 以 在 https://app.embed.1y/signup 
执行 此 操作 。 这 是 一 个 很 直接 的 过 程 。 一 旦 确认 注册 ， 你 将 收 到 一 个 API RH. AEN 
所 需要 的 全 部 。 只 需 在 HTTP 请 求 中 使 用 此 密 钥 。 现 在 开始 吧 。 

importurllib 


defget html (x): 
qurl = urllib.parse.quote (x) 




















rhtml = requests.get('https://api.embedly.com/1l/extract?url-' + 
qurl + '&key-some api key') 
ctnt = json.loads(rhtml.text).get('content') 
returnctnt 
df.loc[:,'html'] - df['urls'].map(get html) 
df.dropna (inplace-1) 
df 


上 述 代 人 码 生 成 图 5-12 的 输出 。 


b[vwsirmedumsomsedewopmenrssend. y — «ivswesectons-his Ta Reductie Seduction ot- 
1 | http://www.fastcompany.com/3054847/work-smart/... |y — | <div>\n<p><a hrefz"http://suzukilab.com/"»Wend... 
«div» WMi«figure» «img srcz"http://ichef.bbci.co.... 
«div»WMi«p»Jean-Marc Choffel, a 42-year-old Fre... 
[NeimenaMossatweteomesoerone. |y ombmeaoyotgnayappeaedn 
6 | https://medium.com/Gamimraryusability-as-the-e... 


5-12 
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使 用 这 个 ， 每 个 故事 的 HTML 内 容 就 能 准备 好 了 。 
我 们 需要 向 模型 提供 纯 文 本 而 不 是 HIML， 上 所 以 这 里 将 使 用 解析 器 来 剥离 HTML 的 


Alv 
D Oo 


>} 
S 


from bs4 import BeautifulSoup 
defget_text (x): 

soup = BeautifulSoup(x, 'lxml') 

text = soup.get_text() 

return text 
df.loc[:,'text'] = df['html'].map(get text) 
df 


上 述 代 码 生 成 图 5-13 的 输出 。 


EE Ci 
i | 
hitp:;//ramiro.org/vis/n-most-linked-books/ y «div»An«h3»Top 30 books ranked by total \nTop 30 books ranked by total number of 
number... links... 
http://www.vox.com/2014/7/15/5881947/myers- «div»An«p»The Myers-Briggs Type \nThe Myers-Briggs Type Indicator is 
bri... y Indicator is p... probably ... 


https://medium.com/Gkarppinen/how-i-ended-up- <div>\n<h3>How | ended up paying $150 |\nHow | ended up paying $150 for a single 

p... d for a si... 60GB... 

lios wwe be oom sdeniiic: <div>\n<figure><img \nshutterstockA wise Shakespeare mug 
src-"http:;//static1.busine... once said... 

http/Www.vox.com/2016/1/14/10760622/nutritio... «div»An«p» There was a time, in the \nThere was a time, in the distant past, 
distant pas... when .. 


图 5-13 


有 了 这 个 ， 我 们 的 训练 集 就 准备 完毕 了 。 现 在 可 以 继续 讨论 如 何 将 这 些 文本 转换 为 模 
型 可 以 使 用 的 格式 。 


5.3 Bd 言 处 理 基 fh 








如 果 机 器 学 习 模型 只 能 操作 数值 型 的 数据 ， 那 么 我 们 如 何 将 文本 转换 成 数值 的 表示 ? 
这 是 自然 语言 处 理 (NLP) 的 重点 。 在 我 们 处 理 数 据 之 前 ， 需 要 简要 了 解 一 下 NLP 的 原理 。 


了 而 是 一 个 最 简化 的 例子 ， 以 确 你 阐明 NLP 
的 工作 原理 。 这 些 部 清楚 了， 我 们 束 可 以 将 其 应 用 于 新 闻 源 的 语料库 。 


我 们 将 从 一 个 包含 三 句 话 的 小 语料库 开始 。 


eThe new kitten played with the other kittens 
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eShe ate lunch 

eShe loved her kitten 

我 们 首先 将 语料库 转换 为 词 袋 BOW) 的 表示 。 这 里 将 跳 过 预 处 理 。 将 语料库 转换 为 
词 袋 表示 ， 包 括 获 取 每 个 单词 及 其 数量 ， 来 创建 词 条 -文档 的 和 矩阵。 在 词 条 -文档 的 矩阵 中 ， 
每 个 唯一 的 单词 对 应 于 一 列 ， 而 每 个 文档 对 应 于 一 行 。 两 者 的 交点 是 这 个 单词 在 该 文档 中 
出 现 的 次 数 ， 如 表 5-1 所 示 。 











表 5-1 


Te pe T [m m m D T Te [eT 
UNBENNENENEBENENERERERERES 


a[e[oejejJo[e[e[oj|trj|:[r]e[o 
s[e[o[:jejJejojo[r[ojogj|t[:1 

请 注意 ， 仅 仅 分 析 了 这 三 个 短 句 ， 我 们 就 已 经 有 了 12 个 特征 了。 可 以 想象 ， 如 果 处 理 
真实 的 文档 ， 例 如 新 闻 稿 ， 甚 至 是 书籍 ， 那 么 特征 的 数量 将 爆炸 式 地 增长 到 数 十 万 。 为 了 
绥 解 这 个 问题 ， 我 们 可 以 采取 一 系列 的 步 台 ， 删 除 对 分 析 几 乎 没有 价值 的 特征 。 

我 们 可 以 采取 的 第 一 步 是 删除 停 用 词 。 这 些 单词 是 如 此 的 普通 ， 它 们 通常 无 法 告诉 你 
关于 文档 的 内 容 。 篆 见 的 英语 停 用 词 的 示例 是 “the”“i” 和 “at”“which” 和 “on”。 我 们 
将 删除 这 些 词 并 重新 计算 词 条 -文档 窍 阵 ， 如 表 5-2 所 示 。 

表 5-2 




















如 你 在 表 5-2 中 所 见 , 特征 的 数量 从 12 个 减少 到 7 个 。 这 很 棒 , 但 我 们 可 以 更 进一步 。 
这 里 可 以 执行 取 词 干 或 词 形 还 原来 进一步 减少 特征 。 请 注意 在 我 们 的 矩阵 中 ， 同 时 存在 





“kitten” 和 “kittens”。 使 用 取 词 干 或 词 形 还 原 的 技术 ， 我 们 可 以 将 这 两 者 合并 为 “kitten”， 
如 表 5-3 所 示 。 


OFRE: 这 里 每 个 唯一 的 单词 表示 一 维特 征 。 
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表 5-3 





我 们 的 新 矩阵 合并 了 “kittens” 和 “kitten”， 不 过 这 里 还 进行 了 其 他 的 修改 。 我 们 去 掉 
了 “played” 和 “loved” 的 后 级 ,“ate” 变 成 了 “eat”。 为 什么 呢 ? 这 束 是 词 形 还 原 所 做 的 
事情 。 如 果 你 还 记得 小 学 的 语法 课 ， 我 们 学 过 从 带 词尾 的 形式 转变 为 词 的 基本 形式 。 现 在 ， 
如 果 词 形 还 原 是 将 一 个 词 变换 为 它 的 基本 形式 ， 那 什么 是 取 词 干 呢 ? 取 词 干 也 有 同样 的 目 
标 ， 不 过 它 使 用 的 方法 没有 那么 复杂 。 这 种 方法 有 时 可 以 产生 虚构 的 单词 而 不 是 实际 的 基 
本 形式 。 例 如 ， 在 词 形 还 原 中 ， 如 果 你 变换 词 “ponies”， 你 会 得 到 “pony”; 而 使 用 取 词 干 
的 拷 术 ， 你 会 得 到 “poni”。 

现在 ， 让 我 们 进一步 对 窍 阵 应 用 另 一 个 变换 。 到 目前 为 止 ， 我 们 使 用 了 每 个 单词 的 简 
单 计 数 ， 但 是 可 以 采用 某 个 算法 以 做 得 更 好 ， 它 就 像 数 据 的 过 滤器 ， 以 提升 对 于 每 个 文档 
而 言 更 为 特殊 的 单词 。 该 算法 称 为 词 频 - 逆 文 档 频 率 或 tfidf。 

我 们 为 矩阵 中 的 每 个 词 条 计算 tidf 的 值 。 这 里 来 算 几 个 例子 。 对 于 文档 1 中 的 “new” 
一 词 ， 词 频 只 是 1。 逆 文档 频率 计算 为 文档 总 数 除 以 出 现 该 词 的 文档 数 ， 再 取 logs XIF “new” 
来 说 束 是 log(3/1)， 或 0.4471。 所 以 对 于 完整 的 tidf 值 ， 我 们 使 用 txidf， 在 这 里 它 是 
1x0.4471, 或 者 就 是 0.4471。 对 于 文档 1 中 的 单词 “kitten” tf-idf 是 2 x log(3/2), 或 0.3522. 

为 剩余 的 词 条 和 文档 完成 同样 的 操作 ， 我 们 获得 了 和 表 5-4. 


表 5-4 





























EE e e | e o oa ie 
[5 [o peo dde 
为 什么 要 做 这 些 ? 7 T RER rf-idf TE» — T IR rs TEC AR, HUBER 
的 次 数 。 这 样 ， 我 们 可 以 认为 文件 由 具有 高 #Fidf 值 的 词 条 所 表示 。 
使 用 目前 的 数据 框 ， 我 们 将 训练 集 转换 为 tf-idf EE. 
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fromsklearn.feature extraction.text import TfidfVectorizer 
vect = TfidfVectorizer(ngram range-(1,3), stop words-'english', min df-3) 
tv — vect.fit transform(df['text']) 


通过 这 三 行 ， 我 们 将 所 有 文档 转换 为 fiqf 辐 量 。 有 几 点 需要 注意 。 我们 传 入 了 了 一些 参 
Zi: ngram range. stop words 和 min df。 让 我 们 逐个 来 讨论 。 

首先 ，ngram range 表示 文档 是 如 何 被 分 词 的 。 在 之 前 的 例子 中 ， 我 们 将 每 个 单词 
作为 分 词 ， 但 在 这 里 我 们 使 用 每 一 个 、 每 二 个 到 每 三 个 词组 成 的 序列 作为 分 词 。 以 第 二 名 
话 为 例 ,“She ate lunch.” 此 时 忽略 停 用 词 。 那 么 这 句 话 的 ngram 将 是 :“she”“she ate". 
"she ate lunch". “ate”, “ate lunch" JH “lunch”. 

接 下 来 的 选项 是 stop words。 我 们 传 入 “English” 来 删除 所 有 的 英语 停 用 词 。 如 前 
所 述 ， 这 将 删除 所 有 缺乏 信息 含量 的 词 条 。 

最 后 的 选项 是 min _ df。 这 里 会 揣 除 所 有 文档 频 训 少 于 三 的 捍 词 。 加 入 此 操作 会 移 除 
那些 非常 罕见 的 词 条 ， 并 减少 窍 阵 的 规模 。 

现在 我 们 的 文章 语料库 是 可 供 模型 操作 的 数值 格式 ， 下 面 继续 将 其 输送 给 分 类 器 。 


5.4 文 持 回 量 机 

















我 们 将 在 本 革 中 使 用 一 个 新 的 分 类 右 , 即 线 性 支持 问 量 机 。 支持 问 量 机 的 算法 使 用 “最 
AUGERE], 试图 对 数据 点 进 行 线性 分 离 并 归 类 。 这 是 口 涉 上 的 摘 述 ， 下 面 让 我 们 来 看 
这 


看 这 完 况 是 什么 意思 。 


假设 有 两 类 数据 ， 而 我 们 想 用 一 条 线 来 分 隅 它们 《这 里 只 处 理 两 个 特征 或 维度 )。 放 置 
这 条 线 最 有 效 的 方法 是 什么 ?如 图 5-14 所 示 。 
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在 图 5-14 F, R Hi 不 能 有 效 地 区 分 两 个 类 ， 所 以 我 们 可 以 不 考虑 这 条 。 线 Ho 能够 清 


楚 地 区 分 它们 ， 但 是 Hs 确保 了 最 大 的 空余 边缘 。 这 意味 着 该 线 在 两 个 类 间 最 近 点 的 当中 ， 
而 这 些 点 被 称 为 文 持 同 量 。 它 们 也 可 以 看 作 是 图 5-15 中 的 虚线 。 
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但 是 ， 如 果 数 据 不 能 被 如 此 清晰 地 分 到 各 个 关中 ， 那 又 该 怎么 人 办? 如 有 点 之 间 有 重 登 
呢 ? 在 这 种 情况 下 也 有 办 法 。 一 种 是 使 用 所 请 的 softmargin SYM。 这 个 公式 仍然 使 边 绿 最 
大 化 ， 但 是 有 一 个 权衡 的 策略 : 如 果 点 错误 地 落 在 边缘 的 茶 一 侧 ， 那 么 对 这 样 的 点 进行 惩 
Wo 53— Riz BE HIPH E kernel 技巧 。 这 种 方法 将 数据 转换 到 更 局 维度 的 空间 ， 让 这 些 数 
据 可 以 被 线性 的 分 割 。 


如 图 5-16 所 示 ， 其 中 有 两 个 类 ， 不 能 用 单线 性 平面 分 开 。 
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不 过 ， 内 核 的 某 种 实现 可 以 将 图 5-16 的 图 像 映射 到 更 高 维度 ， 如 图 5-17 所 示 。 这 人 允 
许 数据 被 线性 分 割 |。 
我 们 已 经 将 一 维特 征 空 间 映 射 到 二 维特 征 空间 。 该 映射 简单 地 取 每 个 x 值 并 将 其 映射 
到 x，x*。 这 个 变换 允许 我 们 添加 线性 分 割 的 平面 。 
介绍 完 这 些 ， 现 在 让 我 们 将 tidf 窍 阵 传送 给 SVM 模型 。 


fromsklearn.svm import LinearSVC 
clf - LinearSVC() 
model - clf.fit(tv, df['wanted']) 
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这 个 tv 参数 是 我 们 的 窍 阵 ， 而 df [wanted] 是 我 们 的 标签 列表 。 记 住 标 丛 是 Y' 或 只 ， 表 
示 我 们 古谷 对 文章 感 兴 趣 。 一 旦 运行 完成 ， 模 型 束 训 练 完毕 了 。 








图 5-17 








本 革 中 尚未 进行 的 一 个 步 又 就 是 正式 地 评 佑 我们 的 模型 。 你 总 古 应 该 你 留 一 份 数据 来 
评估 模型 ,但 由 于 我 们 需要 不 断 更 新 模型 并且 每 天 评估 它 ， 在 这 一 章 我 们 将 跳 过 这 一 步 。 
记得 这 通常 是 一 个 糟糕 的 想法 “。 


现在 让 我 们 继续 建立 每 日 的 新 闻 源 。 


5.5 IFTTT EXER. Google 表单 和 电子 邮件 的 集成 














我 们 使 用 Pocket 来 构建 训练 集 ， 可 古 现 在 需要 一 个 流 式 的 文章 源 来 运行 训练 后 的 模型 。 
为 了 完成 这 项 任务 ， 我 们 将 再 次 使 用 IFTT、Google 表单 ， 以 及 一 个 允许 我 们 使 用 Google 
表单 的 Python 库 。 


通过 IFTTT 设置 新 闻 源 和 Google 表单 


希望 此 时 你 已 经 有 一 个 IFTTT 账户 ， 如 果 没 有 请 现在 去 申请 。 更 多 详细 信息 ， 请 参阅 
第 3 章 一 -构建 应 用 程序 ， 发 现 低 价 的 机 票 。 一 旦 完成 此 操作 后 ， 你 需要 设置 它 与 文章 源 
和 Google 表单 的 集成 。 


在 图 5-18 中 ， 首 先 单 击 Channels， 搜 索 ffged， 然 后 单 击 它 进行 设置 。 
在 图 5-19 中 ， 你 只 需要 单 击 Connect。 


























只 译 者 注 : 作者 的 原意 是 通常 情况 下 ， 不 应 该 跳 过 评估 的 环 市 。 
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Chan nels IFTTT lets you create connections between the Channels below. 


A 


Amazon Alexa Pocket IF Notifications 


News and Sports 


Buzz 
Feep 


BuzzFeed 


Feed Channel 


All Channels 


The Feed Channel provides Triggers and Actions for 
working with RSS and Atom web feeds. 
A web feed (or news feed) is a data format used for 
providing users with frequently updated content. 
Content distributors syndicate a web feed, thereby 
allowing users to subscribe to it. 

2 Connect 
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接 下 来 ， 再 次 单 击 右上 角 的 Channels. XRRR Google Drive, WR 5-20 所 示 。 


Cha n nels IFTTT lets you create connections between the Channels below. 


(3 A 
- p 
Amazon Alexa Pocket IF Notifications 





Google Drive 


Productivity 


e. 


Google Drive 
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单 击 Google Drive。 它 会 带 你 到 选择 Google 账户 进行 连接 的 页 面 。 选 择 账户 ， 然 后 单 
i Allow 人 允许 IFTT 访问 你 的 Google Drive 账户。 完成 后 ， 你 应 该 看 到 图 5-21 的 内 容 。 


Google Drive Channel 


A" ~| 
AII CI anneli 


Google Drive lets you store and access your files 
anywhere — on the web, on your hard drive, or on the 


go. 


Email address: me@myemail.com 


Google Drive Settings 


Google Permissions 


Reconnect Channel 


Disconnect 
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现在 ， 我 们 的 频道 已 连接 ， 可 以 设置 目 己 的 文章 源 了 。 单 击 My Recipes， 然 后 单 击 Create 
a Recipe。 这 将 让 你 来 到 这 一 步 ， 如 图 5-22 PTR. 


Create a Recipe 


ifthisthenthat 
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单 击 this。 搜 索 feed， 然 后 单 击 它 。 你 会 来 到 这 一 步 ， 如 图 5-23 所 示 。 
Choose a Trigger 


New feed item New feed item matches 


hic Trinnar firac varv tiry 4n ^ Thie Tranar irae " - Hi ry ^ 
S Irigger fires every time a new I his I rigger rires every time a new 


tem is added to the feed you tem in the feed you specify contains a 


1 . 
cular keyword or simple phrase. 


particuia 
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在 图 5-23 中 ， 单 击 New feed item， 你 应 该 看 到 图 5-24 的 内 容 。 


Complete Trigger Fields 


New feed item 


Feed URL 


http://feeds2.feedbu rner.com/businessinsider| 


IRL requirements, visit the help page 


Create Trigger 
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然后 ， 将 URL 添加 到 输入 框 中 ， 并 单 击 Create Trigger. 一旦 这 步 完 成 ， 你 会 回 到 添加 


that 的 动作 ， 如 图 5-25 所 示 。 


if À thenthat 


New feed item from 
http://feeds2.feedburner.com/ 
businessinsider 
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单 击 that, 搜索 Google Drive, 然后 单 击 其 图 标 。 一 旦 完成 这 步 ， 你 





如 图 5-26 所 示 。 


€, Choose an Action 


Upload file from URL Create a document Append to a document 


Add row to spreadsheet 
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我 们 希望 新 闻 项 目 能 够 流入 Google Drive 的 电子 表单 ， 因 此 请 单 击 Add row to spreadsheet. 
然后 ， 你 可 以 目 定 义 电 子 表单 ， 如 图 5-27 所 示 。 


Add row to spreadsheet 


4$ Spreadsheet name 





NewStories 


45 Formatted row 





EntryPublished ||| EntryTitle || EntryUrl ||| 
EntryContent || FeedTitle || FeedUrl 


6S Drive folder path 





IFTTT 


Create Action 





图 5-27 


我 将 这 个 电子 表单 命名 为 NewStories, 并 将 其 放 在 名 为 IFTTT 的 Google Drive 文件 来 
中 。 单 击 Create Action 来 完成 这 个 Recipe， 很 快 你 融会 看 到 新 闻 项 目 不 断 地 流入 Google 
Drive 的 电子 表单 。 注 意 ， 它 只 会 添加 新 进入 的 新 闻 项 目 ， 而 不 会 添加 在 创建 Google 工作 
表 时 就 已 经 存在 的 新 闻 项 目 。 我 建议 增加 一 定数 量 的 信息 源 。 你 需要 为 每 个 源头 创建 单独 
的 Recipe。 最 好 为 训练 集中 的 网 站 添加 信息 源 ， 例 如 ， 你 使 用 Pocket 保存 的 那些 网 站 。 


让 新 闻 故 事 在 表 单 中 累积 一 两 天 。 很 快 ， 它 们 束 应 该 看 起 来 像 图 5-28 那样 。 


A B c D 























January 17, 2016 at 08:48AM The man who owned the world: David Bowie made reinvention an art form - Salon http://(news.goo le.c «table border="0" cellpadding-"2" cellspacing 
January 17, 2016 at 02:26PM Netflix To Ramp Up Originals Targeting Kids - Wall Street Journal http://news.google.com/| «table border-"O" cellpadding-"2" cellspacing 
January 17, 2016 at 06:06PM Nostalgia powers Netflix's 'Fuller House' return - USA TODAY http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 
January 17, 2016 at 04:51PM High School Musical cast to reunite for 10-year anniversary telecast - Entertainment Weekly | http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 
January 17, 2016 at 06:40PM Unbreakable Kimmy Schmidt renewed for season 3 by Netflix - Entertainment Weekly http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 





January 17, 2016 at 05:50PM David Bowie's 'Blackstar Becomes His First No. 1 Album - Us Weekly http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 
January 17, 2016 at 07:02PM 5 reasons why birthday girl Betty White had a much better year than you did - USA TODAY  |http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 
January 16, 2016 at 10:00PM Straight Outta Compton' Producer Calls Oscar Noms "Embarrassing" - Hollywood Reporter |http://(news.google.com/| «table border-"0" cellpadding-"2" cellspacing 
January 16, 2016 at 02:07PM SXSW Co-Founder Confesses to 'David Bowie' Street Sign in Austin - Billboard http://news.google.com/| «table border-"O" cellpadding-"2" cellspacing 
January 17, 2016 at 01:27PM Ted Sarandos Blasts NBC's Netflix Ratings Info: 'Remarkably Inaccurate' - Variety http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 
January 17, 2016 at 04:18PM Critics' Choice Awards: What will happen when Erlich Bachman from 'Silicon ... - CNN http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 
January 17, 2016 at 06:40PM Jessica Jones RENEWED for season 2 by Netflix but there's a twist - Mirror.co.uk http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 





January 17, 2016 at 07:02PM High School Musical' Stars Reunite for 10th Anniversary - ABC News http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 


January 17, 2016 at 08:43PM Say hello to 'Daredevil's' Frank Castle, Elektra - USA TODAY http://news.google.com/| «table border-"O" cellpadding-"2" cellspacing 


January 17, 2016 at 08:46PM Sean Penn Tells '60 Minutes' His El Chapo Story "Failed" - Hollywood Reporter http://news.google.com/| «table border="0" cellpadding-"2" cellspacing 
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华 运 的 是 ， 其 中 包括 了 全 文 的 HTML. 内 容 。 这 意味 看 我 们 不 必 表 使 用 embed.1y 为 
每 篇 文章 下 载 其 内 容 。 我 们 仍然 需要 从 Google 表单 中 下 载 文章 ， 然 后 处 理 其 中 的 文本 以 删 
BR HTML 标记 ， 但 这 一 切 都 可 以 相当 容易 地 完成 。 


为 了 拉 取 表单 中 的 文章 ， 我 们 将 使 用 一 个 名 为 gspread 的 Python 库 。 它 可 以 通过 pip 
安装 。 完 成 后 ， 你 需要 按照 指示 设置 oauth2 。 可 以 在 
http://gspread.readthedocs.org/en/latest/oauth2.html 找到 如 何 设置 。 完 
成 后 ， 你 会 下 载 一 个 JSON 格式 的 竺 据 文 件 。 一 旦 你 有 了 这 个 文件 ， 束 能 使 用 
client email 键 找到 电子 邮件 地 址 。 然后 ,你 雷 要 问 该 电子 邮件 共 至 正在 接受 新 闻 故 事 
的 NewStories HIR. Hm tien EEG Share 按钮 ， 然 后 在 其 中 粘贴 电子 
邮件 地 址 束 行 了 了 。 如 果 运 行 下 列 代码 ， 最 终 你 会 在 Gmail 账户 中 收 到 未 能 发 送 的 邮件 ， 但 
这 是 预期 的 结果 。 请 确保 在 以 下 的 代码 中 换 入 你 目 己 的 文件 路 径 以 及 文件 名 称 。 


importgspread 

from oauth2client.client import SignedJwtAssertionCredentials 

json key - json.load(open(r'/PATH TO KEY/KEY.json')) 

scope = ['https://spreadsheets.google.com/feeds'] 

credentials = SignedJUwtAssertionCredentials(json key['client email'], 
json key['private key'].encode(), scope) 

gc = gspread.authorize (credentials) 


现在 ， 如 条 一 切 顺 利 ， 运 行 应 该 没有 错误 。 接 下 来 ， 你 可 以 下 载 新 闻 故 事 了 。 





























ws = gc.open("NewStories") 

sh = ws.sheet1 

zd = list(zip(sh.col values(2),sh.col values(3), sh.col values (4) ) ) 
zf = pd.DataFrame(zd, columns-['title','urls','html']) 


zf.replace('', pd.np.nan, inplace-True) 
zf.dropna(inplace-True) 
zf 


上 述 代码 生成 图 5-29 的 输出 。 
a 标题 


The man who owned the world: David 


: ? zz = = 
Bois mada http://news.google.com/news/url?sa=t&fd=R&ct2=... 


Netflix To Ramp Up Originals Targeting 


Kids - http://news.google.com/news/url?sa=t&fd=R&ct2=... 


Nostalgia powers Netflix's 'Fuller 
9 ii s d http://hews.google.com/news/url?sa-t&fd-R&ct2-... 
House' retu... 
High School Musical cast to reunite for 
T 1 une d ud http://news.google.com/news/url?sa-t&fd-R&ct2-... 
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如 此 一 来 ， 我 们 从 信息 源 中 下 载 了 所 有 的 文章 ， 并 将 它们 放 入 了 DataFrame 对 象 。 
现在 需要 去 挥 HTML 标签 。 可 以 使 用 之 前 用 过 的 函数 来 获取 文本 。 然 后 我 们 将 使 用 tfidf 
问 量 转换 器 转变 它 。 


zf.loc[:,'text'] = zf['html'].map(get text) zf.reset index(drop-True, 











inplace-True) 
test matrix = vect.transform(zf['text']) 
test matrix 


上 述 代 人 码 生 成 图 5-30 的 输出 。 


«488x4532 sparse matrix of type '«class 'numpy.float64'»' 
with 23361 stored elements in Compressed Sparse Row format» 


图 5-30 
这 里 ， 我 们 看 到 问 量 化 是 成 功 的 。 现 在 将 这 个 传递 给 模型 ， 以 获取 
结 


results = pd.DataFrame (model .predict (test matrix), 
columns = ['wanted']) 


上 述 代 码 生 成 图 5-31 的 输出 。 
可 以 看 到 ， 每 个 故事 都 有 一 个 预测 的 结果 。 让 我 们 来 查阅 故事 的 内 容 ， 
以 此 来 评估 结果 的 准确 性 。 


rez=pd.merge (results,zf, left index=True, right index=True) 
rez 


上 述 代 码 生 成 图 5-32 的 输出 。 


Nostalgia powers Netflix's 'Fuller House return' - USA TODAY 








on High School Musical cast to reunite for 10-year anniversary telecast - Entertainment Weekly 
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图 5-32 中 两 遍 文 草 的 预测 肯定 是 对 的 ， 因 为 我 的 兴趣 不 在 High School Musical 和 Full 


House. 


此 时 ， 我 们 可 以 通过 查看 结果 和 纠正 错误 来 改进 模型 。 你 需要 根据 自己 的 判断 来 决定 
每 个 预测 准确 与 否 ， 这 里 列 出 我 的 判断 和 修改 结 


change to no = [130, 145, 148, 163, 178, 199, 219, 222, 223, 226, 235, 279, 
348, 357, 427, 440, 542, 544, 546, 568, 614, 619, 660, 668, 679, 686, 740, 
829] 

change to yes - [0, 9, 29, 35, 42, 71, 110, 190, 319, 335, 344, 371, 385, 
399, 408, 409, 422, 472, 520, 534, 672] 
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for i in rez.iloc[change to yes].index: 


rez.iloc[i]['wanted'] = 'y' 

for i in rez.iloc[change to no].index: 
rez.iloc[i]['wanted'] = 'n' 
rez 


上 述 代 人 码 生 成 图 5-33 的 输出 。 


The man who 

owned the 

world: David http://hews.google.com/news/url?sa-t&fd-R&ct2-us&usg-AFQjCNE a3MZnPNJ. DL--w- 

Bowie made . YaNx6irrbw&clid-c3a7d30bb8a4878e06b80cf16b898331&cid-52779030852562&ei-PyCcVtDxCYaa3QHP5ogl&url-http:/A 
reinvention an 


art form - Salon 


Netflix To Ramp 
Up Originals 


f . http:;//news.google.com/news/url?sa-t&fd-R&ct2-us&usg-AFQjCNFcojfNfk- 
Targeting Kids - 


8kEXByi4x1dWEyPmlJw&clid-c3a7d30bb8a4878e06b80cf16b898331 &cid-52779031941618&ei-ISOcVuiuMYOT3AHB8vpb4 


图 5-33 


看 上 去 好 像 有 修正 了 很 多 错误 ， 但 对 于 超过 900 S SCRIPT YD S ANARE 
少 了 。 通 过 这 些 更 正 ， 我 们 现在 可 以 将 其 反馈 到 模型 中 进一步 提升 它 。 将 这 些 结 条 添加 到 
之 前 的 训练 数据 中 ， 然 后 重建 模型 。 


combined = pd.concat([df[['wanted', 'text']], rez[['wanted', 
'text']]]) 
combined 


上 述 代 码 生 成 图 5-34 的 输出 。 


\nTop 30 books ranked by total number of links to Amazon in Hacker News comments\nClick on a thumbnail image or bar to show the book 
d details.\nAmazon product links were extracted and counted from ... 


E \nThe Myers-Briggs Type Indicator is probably the most widely used personality test in the world.\nAbout 2 million peopletake it annually, at 





the behest of corporate HR departments, colleges, and ... 


\nHow | ended up paying $150 for a single 60GB download from Amazon Glaciennln late 2012, | decided that it was time for my last 
remaining music CDs to go. Between MacBook Airs and the just-intro... 


MishutterstockA wise Shakespeare mug once said that "love is merely madness" and when you're in the throws of it, that certainly seems to 
be so.\nLike Dimetapp, love tastes strange, is intoxicatin... 





y \nThere was a time, in the distant past, when studying nutrition was a relatively simple science.\nln 1747, a Scottish doctor named James 
Lind wanted to figure out why so many sailors got scurvy, ... 


图 5-34 


现在 我 们 重建 模型 。 


tvcomb = vect.fit transform(combined['text'], combined['wanted']) 
model = clf.fit(tvcomb, combined['wanted']) 
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我 们 通过 所 有 可 用 的 数据 重新 训练 了 模型 。 随 看 时 间 的 推移 你 将 获得 更 多 的 结束 ， 
此 可 以 进行 多 次 这 样 的 操作 。 你 添加 的 训练 数据 越 多 ， 预 测 的 结果 会 越 好 。 


我 们 假设 此 时 你 已 经 有 一 个 训练 有 系 的 模型 7 了， 并 准备 开始 使 用 它 。 下 面 看 看 如 何 部 
普 它 来 建立 个 性 化 的 新 闻 源 。 
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为 了 使 用 新 闻 故 事 来 创建 个 人 电子 邮件 ， 我 们 将 再 次 使 用 IFTTT。 如 我 们 在 第 3 章 一 一 
构建 应 用 程序 ， 发 现 低 价 的 机 票 一 一 所 做 ， 我 们 将 使 用 Maker 频道 发 送 POST 请 求 。 不 过 ， 
这 一 次 的 有 效 载 丛 将 是 我 们 的 新 闻 故 事 。 如 果 你 尚未 设置 Maker 频道 ， 请 先 完成 这 一 步 。 
具体 的 操作 指令 可 以 在 第 3 章 中 找到 。 你 还 应 设置 Gmail 频道 。 一 旦 完成 后 ， 我 们 将 添加 
一 个 Recipe 来 组 合 这 两 个 。 


H, Æ IFTTT 主页 单 击 Create Recipe。 然 后 ， 搜 索 Maker Channel, WK] 5-35 所 示 。 





Choose Trigger Channel 


View all Channels 





maker 





5-35 


选择 this， 然 后 选择 Receive a web request， 如 图 5-36 所 示 。 


M Choose a Trigger 


Receive a web request 





图 5-36 
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然后 ， 为 该 请 求 提供 一 个 名 称 。 我 在 这 里 使 用 news event. UK 5-37 Bran. 


M Complete Trigger Fields 


Receive a web request 


M Event Name 


News_event 
The name of the event, like "button pressed" or "front door opened 


Create Trigger 





图 5-37 





最 后 ， 单 击 Create Trigger 来 完成 所 有 步骤 。 接 下 来 ， 单 击 that 来 设置 电子 邮件 。 搜 索 
Gmail 并 单 击 图 5-38 所 示 的 图 标 。 


Choose Action Channel 


View all Channels 





图 5-38 
选择 Gmail 后 ， 单 击 Send an e-mail, WK] 5-39 所 示 。 在 这 里 ， 你 可 以 定制 化 目 己 的 电 
T BETEIR E. 


NA Complete Action Fields 


Send an email 


N4 To address 





meGgmail.com 


I4 Subject 


News Digest ü 


Md Body 





Value1 





图 5-39 
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输入 你 的 电子 邮件 地 址 ， 主 题 ， 最 后 在 电子 邮件 的 正文 中 包括 Valuel 。 我 们 将 通过 POST 
请 求 传递 故事 标题 和 链接 。 单 击 Create Recipe 最 终 完 成 这 项 操作 。 
现在 ， 我 们 已 经 准备 驶 绪 ， 可 以 生成 一 个 按 计 划 运 行 的 脚本 ， 目 动 发 送 我 们 感 兴趣 的 
文章 。 我 们 将 为 此 创建 一 个 单独 的 脚本 ， 不 过 对 于 现 有 的 代码 ， 还 需要 序列 化 同 量 转化 需 
和 模型 。 


import pickle 





pickle.dump (model, open 
(r'/Users/alexcombs/Downloads/news model pickle.p', 'wb')) 
pickle.dump(vect, open 
(r'/Users/alexcombs/Downloads/news vect pickle.p', 'wb')) 


通过 这 些 代码 ， 我 们 已 经 保存 了 所 需 的 模型 。 在 新 的 脚本 中 ， —— 
生成 新 的 预测 。 我 们 将 使 用 相同 的 计划 库 运 行 第 3 章 的 代码 。 整 合 所 有 这 些 ， 我 们 将 获得 
如 下 的 脚本 。 

# 进行 包 的 导入 


import pandas as pd 








fromsklearn.feature extraction.text import TfidfVectorizer 
fromsklearn.svm import LinearSVC 


import schedule 
import time 


import pickle 
importjson 
importgspread 


import requests 
from bs4 import BeautifulSoup 


from oauth2client.client import SignedJwtAssertionCredentials 


# 创建 我 们 的 抓 取 函数 

deffetch _ news () : 
try: 
vect = pickle.load(open (r'/Users/alexcombs/Downloads/ 
news vect pickle.p', 'rb')) 
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model = pickle.1load (open (r'/Users/alexcombs/Downloads/ 
news model pickle.p', 'rb')) 


json key = json.load (open (r'/Users/alexcombs/Downloads/ 
APIKEY.json')) 

scope = ['https://spreadsheets.google.com/feeds'] 
credentials = SignedJwtAssertionCredentials(json key 
['client email'], json key['private key'].encode(), scope) 
gc = gspread.authorize (credentials) 


ws = gc.open("NewStories") 
sh = ws.sheetl 


zd = list(zip(sh.col values(2), sh.col values(3), 

sh.col values (4) ) ) 

zf = pd.DataFrame(zd, columns-['title', 'urls', 'html']) 
zf.replace('', pd.np.nan, inplace-True) 


zf.dropna(inplace-True) 


defget text (x): 
soup = BeautifulSoup(x, 'lxml') 
text = soup.get text() 


return text 
zf.loc[:, 'text'] = zf['html'].map(get text) 


tv = vect.transform(zf['text']) 
res = model.predict(tv) 


rf = pd.DataFrame(res, columns-['wanted']) 
rez — pd.merge(rf, zf, left index-True, right index-True) 


news str — '' 

for t, u in zip(rez[rez['wanted'] == 'y']['title'], 
rez[rez['wanted'] == 'y']['ur1s']): 

news str = news str + t + '\n' +u 'Mn' 


payload = ("valuel": news str] 
r — requests.post('https://maker.ifttt.com/trigger/ 
news event/with/key/IFTTT KEY', data-payload) 


# 清理 工作 表 


lenv = len(sh.col values (1)) 
cell list = sh.range('Al1:F' + str(lenv)) 
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for cell in cell list: 
cell.value - "" 
sh.update cells(cell list) 
print(r.text) 

except: 

print('Failed') 


Schedule.every(480).minutes.do(fetch news) 
while 1: 

Schedule.run pending() 

time.sleep(1) 


这 个 脚本 所 做 的 事情 是 ， 每 4 小 时 运行 一 次 ， 从 Google 表单 下 载 新 闻 故 事 ， 通 过 模型 
对 这 些 故事 进行 预测 ， 再 向 IFTTT 发 送 POST 请 求 来 生成 电子 邮件 ， 该 邮件 包含 了 模型 预 
测 我 们 会 感 兴趣 的 故事 ， 然 后 在 最 终 ， 它 会 清除 电子 表格 中 的 故事 ， 以 便 下 一 封 电 子 邮件 
只 会 发 送 新 的 故事 。 

恭喜 ! 你 现在 拥有 自己 的 个 性 化 新 闻 源 了 ! 

















5.7 IJ 





在 本 章 中 , 我 们 学 习 了 在 训练 机 器 学 习 模 型 时 , 如 何 使 用 文本 数据 。 我 们 还 学 习 了 NLP 
和 支持 癌 量 机 的 基础 知识 。 下 一 革 ， 我 们 将 进一步 深入 这 些 拉 能 ， 并 笠 试 预测 什么 样 的 内 
容 会 三 为 流传 。 
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预测 你 的 内 容 是 否 会 广 为 流 传 


一 切 都 始 于 一 场 赌注 。2001 F, Jonah Peretti， 那 时 还 是 号 省 理工 学 院 的 研究 生 ， 拖 延 
了 他 的 毕业 进程 。 他 没有 写 论文 ， 而 是 决定 接受 耐 殉 公司 提供 的 机 会 ， 打 造 一 双 个 性 化 的 
运动 圣 。 根 据 当 时 推出 的 最 狐 项 目 ， 任 何人 都 可 以 在 耐 元 的 新 网 站 一 一 NIKEiD 进 行 这 样 的 
设计 。 唯一 的 问题 是 , 至 少 从 耐克 的 角度 来 看 , 像 Peretti 所 请 求 的 那样 , 在 耐克 畦 上 打出 “ 血 
汗 工 三 ”2 的 字眼 ， 是 不 能 予以 考虑 的 。Peretti 通 过 一 系列 发 给 耐克 公司 的 电子 邮件 表示 抗 
议 ， 他 指出 “血汗 工厂 ”一 词 并 不 属于 该 公司 明令 禁止 条 球 中 的 任何 类 列 ， 因 此 不 应 该 导 
致 他 的 请 求 被 拒绝 。 


Peretti 发 现 他 与 耐克 的 客服 代表 之 间 来 来 回回 的 邮件 非 营 有 意思 ， 而 且 和 党 得 询 人 可 能 
也 会 感 兴 趣 ， 所 以 将 这 些 信和 转发 给 一 些 杀 近 的 朋友 。 几 天 之 内 ， 电 子 邮 件 已 经 进入 了 全 世 
界 的 各 种 收 件 箱 。 主 流 的 媒体 ， 例 如 Time, Salon, The Guardian， 甚 至 Today show 的 节目 
都 谈论 到 了 这 个 。Peretti 是 整个 病毒 式 传 播 的 中 心 。 


不 久之 后 ， 开 始 讨论 的 问题 变 成 这 种 事情 是 否 可 以 复制 。 他 的 朋友 ，Cameron Marlow, 
一 直 在 准备 写 有 关 病 毒 式 传播 的 博士 论文 ， 并 且 非 党 衣 定 这 样 的 事情 对 于 任何 人 来 说 都 很 
难 刻 意 为 之 的 。Marlow 和 Peretti 打赌 ，Peretti 不 能 重复 耐克 事件 这 样 的 成 功 。Peretti 迎接 
了 挑战 。 


—5 15 年 过 去 了 ，Jonah Peretti 领导 着 一 个 名 为 BuzzFeed 的 网 站 ， 它 已 经 成 为 了 病毒 
式 内 容 的 同义词 。2015 年 该 网 站 拥有 超过 7700 万 的 独立 访问 者 ， 在 总 触 达 率 的 排名 中 它 
高 于 纽约 时 报 。 我 认为 Peretti 赢得 了 这 场 财 注 。 


但 他 守 竟 是 怎么 做 的 呢 ? Peretti 如 何 发 明 秘 密 公式 ， 来 创建 像 野 火 一 般 台 延 的 内 容 ? 
































(D 译 者 注 : 953A 73 Peretti 这 样 做 是 含 沙 射影 地 指 同 而 元 工 三。 
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在 本 章 中 ， 我 们 将 试图 解 开 其 中 一 些 奥秘 。 我 们 将 观察 一 些 广 为 流传 的 内 容 ， 并 尝试 找到 
它们 的 共同 点 ， 看 看 它们 和 那些 人 们 不 太 愿意 分 享 的 内 容 相 比 ， 到 底 有 什么 区 别 。 

我 们 将 在 本 章 讨论 以 下 主题 。 

。 关 于 病毒 性 ， 研 究 告诉 我 们 了 些 什么 ? 

。 获 得 被 共享 的 内 容 和 数量 。 

。 探 索 可 共享 性 的 特征 。 

。 构 建 预 测 性 的 内 容 评分 模型 


6.1 关于 病毒 性 ， 人 研究 告诉 我 们 了 些 什么 











了 解 共享 行为 是 一 件 很 重要 的 事情 。 随 着 消费 者 对 传统 广告 的 日 益 麻 木 ， 推 送 应 该 不 
再 限于 简单 的 触 达 ， 而 是 应 该 讲述 更 有 吸引 力 的 故事 。 这 种 尝试 的 成 功 在 社交 性 分 享 中 变 
得 越 来 越 明 显 。 为 什么 要 花费 力气 做 这 些 呢 ? 因为 对 于 一 个 品牌 而 言 ， 每 一 次 分 享 都 意味 
着 触 达 了 一 个 消费 者 一 -而且 没有 花费 1 分 钱 。 

鉴于 其 价值 ， 几 个 研究 人 员 观 察 了 分 享 行为 ， 希 望 理解 是 什么 激励 人 们 这 么 去 做 。 

研究 人 员 发 现 了 以 下 几 点 原因 。 

为 他 人 提供 实用 的 价值 (利他 主义 动机 )。 

。 将 自身 和 某 些 想法 以 及 概念 相关 联 (自我 认同 动机 )。 

。 通 过 共同 的 情感 与 他 人 联系 (公社 动机 )。 

关于 最 后 一 个 动机 ， 一 个 经 过 特别 精心 设计 的 研究 查看 了 7,000 份 来 自 《纽约 时 报 》 
的 内 容 ， 以 观察 情感 对 分 享 行为 的 影响 。 他 们 发 现 ， 简 单 的 情感 和 情绪 不 足以 解释 分 享 行 
为 ， 但 当 分 享 与 情绪 响应 相 结合 时 ， 解 释 力 更 大 。 例 如 ， 虽 然 悲伤 具有 很 强 的 负面 性 ， 但 
被 认为 是 低 响应 状态 。 另 一 方面 ， 愤 怒 既 具有 负面 性 ， 又 具有 相 匹 配 的 高 响应 状态 。 鉴 于 
此 ， 使 读者 产生 莫 伤 情绪 的 故事 ， 其 产生 的 进一步 传播 要 比 使 读者 产生 愤怒 情绪 的 故事 产 
生 少 得 多 ， 如 图 6-1 Bras. 


这 遍 文 章 包含 了 动机 方面 的 研究 。 然 而 ， 如 果 我 们 你 持 这 些 因素 不 变 ， 其 他 属性 将 如 
何 影响 茶 段 内 容 的 病毒 式 传 播 ? 其 中 一 些 因 系 可 能 包括 : 标题 的 语 名 、 标 题 的 长 度 、 标 题 
的 词性 、 内 容 的 长 度 、 及 帖 的 社区 网 络 、 主 题 、 主 题 的 时 间 轴 等 等 。 坚 无 疑问 ， 一 个 人 可 
以 人 花费 毕生 的 精力 研究 这 种 现象 。 然而， 现在， 我们 只 是 花费 接 下 来 30 页 左右 的 内 容 进 行 
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相关 研究 。 


焦虑 (+1SD)IE | 21% 
愤怒 (+1SD)IE 34 
-16%[ | 悲伤 (+1SD) 
敬 导 (+1SD) EEUU 30% 
积极 (+1SD) 必 | 13% 
情绪 化 (+1SD) 四 一 18% 

兴趣 Q(1SD)E er] 25% 
惊讶 (+1SD)IE 14% 

实用 价值 (+1SD)IEAA | 30% 

处 于 主页 顶部 的 时 间 
(+1SD) 2096 


—2096 0% 20% 40% 


6.2 获取 分 圣 的 数量 和 内 容 








在 开始 探索 哪些 特征 会 使 得 内 容易 于 共享 之 前 ， 我 们 手头 上 需要 足够 的 内 容 。 我 们 还 
需要 每 份 内 容 在 各 种 社交 网 络 上 的 分 享 识 数 。 竺 运 的 是 ， 获 取 这 些 并 没有 多 大 困难 。 我 会 
使 用 网 站 ruzzit.com. 

这 是 一 个 相对 较 新 的 网 站 一 一 它 仍 处 于 beta 测 试 阶段 ,但 它 会 跟踪 最 常 被 分 享 的 内 容 ， 
这 正 是 我 们 需要 的 ， 如 图 6-2 Br. 

我 们 将 从 页 面 中 抓 取 内 容 一 一 不 驻 的 是 ， 没 有 可 以 直接 使 用 的 API 接口 。 而 且 ， 因 为 
该 网 站 使 用 了 无 限 深 动 的 机 制 ， 我 们 需要 使 用 第 3 章 的 老 朋 友 ，Selenium 和 PhantomJS. 
现在 开始 抓 取 吧 。 




















OFRE: 至 少 在 原著 作者 撰写 本 书 的 时 候 是 如 此 。 
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RU /4 I T BETA find the most shared content on the web! Search Keyword or Share a link FAQ 


1.2M shares 

9.6M tweets 

1,911 likes 
Find the latest breaking news and information on the top stories, ta Oviews 
weather, business, entertainment, politics, and more. For in-depth 
coverage, CNN provides special reports, video, audio, photo galleri... 


Walker flap exposes GOP rift on lowa's sacred 
status - CNN 


+ 0+1s 
8,693 pins 


000990 wu eR 
ff) 18/3/2015 18:41 


5.1M shares 
0 tweets 
1,559 likes 


f 
What Career Should You Actually Have? - - 
BuzzFeed in 
` Do what you love, love what you do. 0 views 
& 751+1's 
(9  10.9k pins 
Est 


© © (in) o o Read More 


24/1/2016 21:00 





入 6-2 


我 们 将 从 最 初 需 要 导入 的 包 开 始 。 

import requests 

import pandas as pd 

import numpy as np 

import json 

import time 

from selenium import webdriver 

pd.set option('display.max colwidth', 200) 


接 下 来 ， 我 们 将 设置 Selenium 浏 览 器 。 这 里 仪 选 择 该 站 点 过 去 一 年 的 文章 来 生成 URL 
网 址 列表 。 需 要 设 定 浏 览 器 的 大 小 ， 以 便 获 得 标准 的 巢 面 外 观 ， 并 日 每 隔 15 秒 请 求 一 次 ， 
这 事 关 礼仪 “。 我 们 也 将 向 下 滚动 相当 于 50 页 的 内 容 (每 页 有 10 篇 文章 )。 


browser = webdriver.PhantomJs () 








browser.set window size(1080,800) 
browser.get("http://www.ruzzit.com/en-US/Timeline?media-Articles&timeline- 
Yearl&networks-All") 

time.sleep(3) 
Pg scroll count - 50 
while pg scroll count: 

browser.execute script("window.scrollTo(0, document.body.scrollHeight);") 
time.sleep(15) 

Pg scroll count -- 1 
titles = browser.find elements by class name("article title") 





ODFFE: METRUM v P3 RATRE eX EXPE BS HS 73, TEE IADORUREHBOE T 6 TCR - 
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link class = browser.find elements by class name("link read more article") 
Stats — browser.find elements by class name("ruzzit statistics area") 


在 最 后 一 节 中 ， 我 们 选择 了 分 析 所 需 的 页 面 元 素 。 接 下 来 ， 需 要 进一步 解析 它们 以 获 
取 文 本 信息 。 


我 在 分 析 中 去 除 Twitter 所 提供 的 分 娃 人 次 数 。 该 公司 在 2015 年 年 压 决 定 从 其 标准 API 
中 删除 此 项 数据 。 鉴 于 此 ， 其 展示 的 次 数 不 太 可 菲 。 为 了 避免 数据 被 污染 的 风险 ， 最 好 和 直 
接 去 除 这 些 信息 。 


all data = [] 

for title, link, stat in zip(titles, link class, stats): 
all data.append((title.text, 
link.get attribute ("href"), 
stat.find element by class name("col-md- 
12").text.split(' shares')[0], 
Stat.find element by class name("col-md- 
12").text.split('tweetsMn') 
[1] .split('likes\n0') [0], 
stat.find element by class name("col-md- 
12").text.split('1l'sWMn')[1].split(' pins')[0], 
stat.find element by class name("col-md- 
12").text.split('pinsNn')[1])) 


接 下 来 ， 我 们 将 它 放 入 一 个 数据 框 。 
df = pd.DataFrame(all data, columns-['title', 'link', 'fb', 'lnkdn' 


'pins', 'date']) 
df 


上 述 代码 生成 图 6-3 的 输出 。 
pm 日 期 | 


Walker flap exposes GOP rift on lowa's sacred status - CNN US/Redirect/Link? 1.2M |1,911 |8,693 18:41 
media-653892 
http://www.ruzzit.com/en- 24/4/2016 
What Career Should You Actually Have? - BuzzFeed US/Redirect/Link? 5.1M [1,559 | 10.9k 21:00 
media-1928328 

















http://www.ruzzit.com/en- 24/1/2016 
What State Do You Actually Belong In? - BuzzFeed US/Redirect/Link? 4.1M |76 5,465 1545 
media-1927663 
http://www.ruzzit.com/en- 1/2/2016 
Which "Grease" Pink Lady Are You? - BuzzFeed US/Redirect/Link? 2,760 03:46 
media-1960941 
i | | | ,| 


Al 6-3 
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这 是 一 个 好 的 开始 ,但 我 们 需要 清理 数据 。 你 会 注意 到 所 有 的 链接 都 是 通过 ruzzit.com 
的 重 定 癌 。 我 们 将 通过 跟 踩 链接 ， 检 索 原 始 站 点 的 链接 来 解决 这 个 问题 ， 具 体 如 下 。 
df = df.assign(redirect = df['link'].map(lambda x: requests.get(x).url)) 


此 行 代码 使 用 requests 库 检索 故事 的 真实 URL ( 重 定向 之 后 的 )， 如 图 6-4 所 示 。 
链接 f |inkdn|pins | 日 期 | 重 定向 后 的 链接 


http://www.ruzzit.com/en- 18/3/2015 

US/Redirect/Link? 1.2M |1,911 |8,693 18:41 http://www.cnn.com/ 

media-653892 

http;//www.ruzzit.com/en- 24/1/2016 

US/Redirect/Link? 5.1M [1,559 |10.9k 21:00 http;//www.buzzfeed.com/ashleyperez/what-career-should-you-have 
media-1928328 








http://www.ruzzit.com/en- 24/4/2016 

US/Redirect/Link? 4.1M |76 5,465 15:15 http://www.buzzfeed.com/awesomer/what-state-do-you-actually-belong-in 
media-1927663 

http://www.ruzzit.com/en- 1/2/2016 

US/Redirect/Link? 3M 2,760 03:46 http://www.buzzfeed.com/louispeitzman/which-grease-pink-lady-are-you 
media- 1960941 


6-4 





如 条 现 在 检查 数据 框 DataFrame， 我 们 可 以 看 到 该 网 站 的 原始 链接 。 你 会 注意 到 在 
第 一 行 有 CNN 的 主页 。 仔 细 研 究 后 ， 发 现 有 17 个 故事 指向 某 个 网 站 的 主页 。 这 是 因为 它 
们 已 被 删除 。 另 一 个 原因 是 一 些 链接 指 癌 的 是 图 像 而 不 是 文章 。 


以 下 代码 将 识别 这 两 个 问题 ， 并 删除 有 问题 的 行 。 
def check home (x): 

if '.com' in x: 

if len(x.split('.com')[1]) < 2: 

return 1 








else: 

return O0 

else: 

return O0 
def check img(x): 

if '.gif' in x or '.jpg' in x: 

return 1 

else: 

return O0 
df = df.assign(pg missing = df['pg missing'].map(check home)) 
df = df.assign(img link = df['redirect'].map(check img)) 
dfc = df[(df['img link']!-1)&(df['pg missing']!-1)] 
dfc 


上 述 代 人 码 生 成 图 6-5 的 输出 。 
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What Career 

Should You hiipii comian 
Actually US Pedinect/Link? 
Hava? - rnadia- 15258325 
BluzzFeed 


What State Do 


htlpi/^www.ruzzit. comáen- 
US/Fiedinect/Link'? 
redias1827863 


You Actually 
Belong In? - 
BuzzFeecd 


REDL www.nuzzit.com/en- 
LSU Redinect/Link? 
— | rrsechias 1 BG O44 1 





图 6-5 


现在 让 我 们 进行 下 一 步 ， 获 取 完 整 的 文 草 和 其 他 元 数据 。 束 如 上 一 革 ， 我 们 将 使 用 
embed. ly 中 的 API 接口。 如果 对 于 其 设置 你 需要 帮助 ， 请 返回 前 一 曹参 看 详细 介绍 。 这 
里 将 使 用 embed.1y 来 检索 文章 的 标题 、HIML 和 一 些 附 加 数据 ， 例 如 引用 和 图 像 。 


def get data (x): 
try: 





data = requests.get('https://api.embedly.com/1/extract? 
key-SECRET KEY7&url-' 十 x) 

json data - json.loads (data.text) 

return json data 
except: 

print('Failed') 

return None 
dfc = dfc.assign(json data = dfc['redirect'].map(get data)) 
dfc 


上 述 代 人 码 生 成 图 6-6 的 输出 。 
pamissing [ima ink [ison data | 


Thpë'" "hirnl', 'lead'- None, Tavicon calars": [wight 
0.8704101582, 'cok: [233, 52, JJ}, asigi: 
Q.329589B43B, "eola: [249, 245, 2493]]]. ‘original ur: 
"htiga ^wenw.burrlgad.com/as... 





['type': ‘himli’; 'lead': Mona, "favicon colons; (weight: 














ü.5704101562, 'color': [233, 52, 37]), lweight': 
(, 3295898438, 'color: [249, 258, 249])]. 'original urt'; 
"httpc//weww.burzzfead.comv/aw.. 


T'type': "hárnl', 'lead': None, favicon colors: [[weeght': 
0.670410171562, 'colkw- [233, 52, 37]), [weight 
(.3295B89B43B, "color: [249, 245, 249/1]. 'ariginal url: 
"httgc/^www. burrtesd. coma... 





图 6-6 
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现在 每 篇 文章 都 有 一 列 JSON 数据 。 这 里 将 解析 这 个 JSON 数据 ， 抽 取出 我 们 有 兴趣 
探索 的 每 个 特征 列 。 先 从 基本 信息 开始 : 网 站 、 标 题 、HTML 和 图 片 数 量 。 


def get title(x): 
try: 
return x.get('title') 
except: 
return None 
def get site(x): 
try: 
return x.get('provider name') 
except: 
return None 
def get images (x): 
try: 
return len(x.get('images')) 
except: 
return None 
def get html (x): 
try: 
return x.get('content') 
except: 
return None 
dfc = dfc.assign(title = dfc['json data'].map(get title)) 
dfc = dfc.assign(site = dfc['json data'].map(get site)) 
dfc = dfc.assign(img count = dfc['json data'].map(get images)) 
dfc = dfc.assign(html = dfc['json data'].map(get htm1)) 
dfc 


上 述 代 人 码 生 成 图 6-7 的 输出 。 


| html 


<div>\n<p>l've heard the assertion made time and time again: Being a stay-at-home mom is not akin to 
They're right. l'm not ... 


«div»Mi«p»Astronomers have spotted a strange mess of objects whirling around a distant star. Scientist 
closer look. </p>\n<p>... 





图 6-7 
大 多 数 行 都 成 功 抽取 了 页 面 的 HTML 内 容 ， 但 是 有 一 些 却 没有 返回 任何 值 。 检 查 了 空 
白 的 行 之 后 ， 我 们 发 现 它们 似乎 主要 来 自 BuzzFeed 这 个 网 站 。 这 是 合理 的 ， 因 为 这 种 页 面 
主要 是 图 片 和 小 测验 。 这 是 一 个 小 小 的 烦恼 ， 我 们 不 得 不 将 束 着 用 一 下 。 
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现在 让 我 们 取出 HTML 并 将 其 转换 为 文本 。 这 里 将 使 用 BeautifulSoupb 库 为 我 们 


实现 这 个 目标 。 


from bs4 import BeautifulSoup 
def text from html (x): 
try: 
soup = BeautifulSoup(x, 'lIxml') 
return soup.get text() 
except: 


return None 


dfc = dfc.assign(text = dfc['html'].map(text from html)) 


dfc 
上 述 代码 生成 图 6-8 的 输出 。 


现在 请 加 额外 的 特征 。 我 们 将 旋 加 页 面 上 第 一 个 图 像 中 最 
突出 的 颜色 。 由 embed. 1y 生成 的 JSON 数据 保存 了 每 个 图 像 的 
RGB 值 ， 这 些 值 体现 了 对 应 图 像 的 颜色 ， 所 以 这 将 是 一 个 简单 
的 任务 。 

import matplotlib.colors as mpc 

def get rgb(x): 

try: 
if x.get('images'): 





\nl've heard the assertion 
made time and time again: 
Being a stay-at-home mom 
is not akin to having a "real" 
job. And as a stay-at-home 
mom, I'm here to tell you... 
They're right. l'm not sure 
why... 





\nAstronomers have spotted 
a strange mess of objects 
whirling around a distant 
star. Scientists who search 
for extraterrestrial 
civilizations are scrambling 





图 6-8 


main color = x.get('images')[0].get('colors') [0].get('color') 


return main color 
except: 
return None 
def get hex(x): 
try: 
if x.get('images'): 


main color - x.get('images')[0].get('colors') [0].get('color') 


return mpc.rgb2hex([(x/255) for x in main color]) 


except: 


return None 


dfc = dfc.assign(main hex 


dfc['json data'].map(get hex)) 


dfc = dfc.assign(main rgb = dfc['json data'].map(get rgb)) 


dfc 


上 述 代码 生成 图 6-9 的 输出 。 





ATF 
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\nl've heard the assertion 

made time and time again: 

Being a stay-at-home mom 

is not akin to having a "real" |[243, 245, 
job. And as a stay-at-home |245] 
mom, l'm here to tell you... 


#f3f5f5 


They're right. l'm not sure 


why... 


Astronomers have spotted 
a strange mess of objects 
whirling around a distant 
star. Scientists who search 
for extraterrestrial 
civilizations are scrambling 





图 6-9 








et EE 
六 进 制 值 。 稍 后 检查 图 像 闫 色 的 时 候 也 会 使 用 这 个 信息 。 


我 们 几乎 完成 了 数据 的 处 理 部 分 ， 不 过 还 需要 转换 一 些 从 Ruzzit 获取 的 数字 。 我 们 所 
拥有 的 分 时 次 数 是 用 于 显示 目的 ， 而 不 是 用 于 分 析 的 格式 ， 如 图 6-10 所 示 。 


| [we e [e minns | 日期 





What Career 
Should You 
Actually Have? 
- BuzzFeed 


What State Do 


You Actually 
Belong In? - 
BuzzFeed 


Which 
"Grease" Pink 
Lady Are You? 
- BuzzFeed 








http:;//www.ruzzit.com/en- 24/1/2016 
US/Redirect/Link? 5.1M [1,559 |10.9k 21:00 
media-1928328 ` 
http://www.ruzzit.com/en- 24/1/2016 
US/Redirect/Link? 4.1M |76 15:15 
media-1927663 ` 
http://www.ruzzit.com/en- 

US/Redirect/Link? 3M 2,760 ns 
media- 1960941 ` 


图 6-10 











我 们 需要 清理 fb. lnkdn. pins 和 date (日 期 ) 列 ， 将 它们 从 字符 串 表 示 转 化 为 


类 型 ， 如 下 所 示 。 

def clean counts (x): 
if 'M' in str(x): 
d= x.split('M')[0] 


dm = float(d) * 1000000 


return dm 
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elif 'k' in str(x): 

d= x.split('k')[0] 

dk = float(d.replace(',','')) * 1000 

return dk 
elif ',' in str(x): 

d = x.replace(',',''") 

return int (d) 

else: 

return x 
dfc = dfc.assign(fb = dfc['fb'].map(clean counts)) 
dfc = dfc.assign(lnkdn = dfc['lnkdn'].map(clean counts)) 
dfc = dfc.assign(pins = dfc['pins'].map(clean counts)) 
dfc = dfc.assign(date = pd.to datetime(dfc['date'], dayfirst-True)) 
dfc 


上 述 代码 生成 图 6-11 的 输出 。 
kn [pins [EU 


What Career  |http://www.ruzzit.com/en- 
Should You US/Redirect/Link? 5100000 | 1559 |10900 
Actually Have? | media=1928328 


US/Redirect/Link? 4100000 | 76 5465 
media-1927663 


图 6-11 


最 后 ， 我 们 将 添加 最 后 一 个 特征 ， 每 列 的 字数 统计 。 我 们 可 以 通过 空格 来 切 分 文本 ， 
然后 采取 最 终 的 计数 。 操 作 如 下 。 


def get word count(x): 
















if not x is None: 
return len(x.split(' ')) 
else: 
return None 
dfc = dfc.assign(word count = dfc['text'].map(get word count)) 
dfc 


上 述 代码 生成 图 6-12 的 输出 。 
随 着 我 们 的 数据 准备 就 绕 ， 现 在 可 以 开始 进行 分 析 了 。 我 们 将 尝试 寻找 什么 样 的 特征 
会 使 内 容 具 有 更 高 的 传播 度 。 
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\nl've heard the assertion made time and time again: Being a stay-at-home mom is not akin to having a "real" job. And as a stay-at- 
home mom, l'm here to tell you... They're right. l'm not sure why... 


MAstronomers have spotted a strange mess of objects whirling around a distant star. Scientists who search for extraterrestrial 


civilizations are scrambling to get a closer look. \n\n\n\nKevin Mor... 


What would you say if you found out that our public schools were teaching children that it is not true that it's wrong to kill people for 
fun or cheat on tests? Would you be surprised?Wl was. A... 


Are you mindlessly twisting your hair or biting your nails as you read this article? New research from the University of Montreal 
suggests that compulsive behaviors like these might say more abo... 
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6.3 探索 传播 性 的 特征 





我 们 在 这 里 收集 的 故事 代表 了 在 过 去 一 年 中 ， 大 约 500 个 传播 度 最 高 的 作品 。 我 们 将 
符 试 解构 这 些 文 草 来 寻找 使 它们 广 为 流传 的 共同 特征 。 先 从 图 像 数 据 开 始 。 


6.3.1 探索 图 像 数 据 


让 我 们 来 看 看 每 个 改 事 中 包含 的 图 片 数量 。 我 们 运行 一 个 数值 统计 , 然后 
绘制 图 表 。 

dfc['img count'].value counts().to frame('count'!) 

上 述 代 码 生 成 图 6-13 的 输出 。 

现在 ， 让 我 们 绘制 这 些 信 息 。 


fig, ax = plt.subplots(figsize-(8,6)) 














y = dfc['img count'].value counts().sort index() 

x — y.sort index().index 

pit.bar(x, y, color-'k', align-z'center') 
pit.title('Image Count Frequency', fontsize-16, y-1.01) 
ax.set xlim(-.5,5.5) 

ax.set ylabel('Count') 

ax.set xlabel('Number of Images') 


上 述 代码 生成 图 6-14 的 输出 。 

图 6-14 中 的 数字 已 经 令 人 惊讶 了 。 绝 大 多 数 的 故事 里 都 有 五 张 图 片 ， 而 只 有 一 张 甚至 
没有 图 片 的 故事 是 相当 罕见 的 。 

因此 ， 我 们 发 现 人 们 倾 回 于 分 人 享 包含 大 量 图 片 的 内 容 。 下 面 来 看 看 这 些 图 像 中 最 常见 
的 颜色 。 
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mci = dfc['main hex'].value counts().to frame('count') 





mci 
上 上述 代码 生成 图 6-15 的 输出 。 
拥有 这 个 数量 图 片 的 故事 数量 
图 片 数量 
图 6-14 图 6-15 





图 6-15 看 上 去 不 是 很 有 帮助 ， 因 为 我 们 并 不 理解 HEX 值 代表 什么 颜色 。 不 过 ， 这 里 
可 以 使 用 pandas 中 的 一 个 新 功能 ， 称 为 conditional formatting， 它 可 以 帮助 我 们 。 
mci['color'] = ' ' 
def color cells (x): 
return 'background-color: ' + x.index 
mci.style.apply(color cells, subset-['color'], axis-0) 


上 上述 代码 生成 图 6-16 的 输出 。 

这 当然 很 有 帮助 。 我 们 可 以 看 到 一 些 颜 色 ， 例 如 淡 蓝 色 、 黑 色 和 绿色 (这 里 是 以 灰 度 
演 染 的 )， 但 颜色 的 粒度 是 如 此 之 细 ， 总 共有 超过 450 个 唯一 的 值 。 让 我 们 使 用 一 点 聚 类 
的 技术 将 其 转化 成 更 容易 管理 的 范围 。 由 于 这 里 有 每 个 颜色 的 RBG fü, 我们 可 以 创建 一 个 
三 维 空间 ， 并 使 用 K-means 算法 来 聚集 它们 。 我 不 会 在 这 里 讨论 算法 的 细节 ， 不 过 它 是 一 
个 相当 简单 的 迭代 算法 ， 它 通过 测量 每 个 数据 点 到 到 中 心 点 的 距离 来 生成 聚 类 ， 并 友 代 式 
地 重复 该 过 程 。 算 法 需要 我 们 选择 k 的 值 ， 或 者 说 是 期 望 的 聚 类 数量 。 由 于 RGB 值 的 范围 
是 从 0 到 256， 我 们 将 使 用 256 的 平方 根 ， 也 就 是 16。 如 此 一 来 ， 我 们 可 获得 一 个 可 管理 
的 数量 ， 同 时 保留 调 色 板 的 特点 。 

我 们 首先 将 RGB 值 拆 分 成 单独 的 列 ， 如 下 所 示 。 
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defget csplit(x): 
try: 
return x[0], x[1], x[2] 
except: 
return None, None, None 
dfc['reds'], dfe['greens'], dfc['blues'] = 
zip(*dfc['main rgb'].map(get csplit)) 


接 下 来 ， 我 们 将 使 用 它 来 运行 我 们 的 K-means 模型 并 获取 中 心 值 。 


from sklearn.cluster import KMeans 





clf = KMeans (n clusters-16) 

clf.fit(dfec[['reds', 'greens', 'blues']].dropna()) 

clusters = pd.DataFrame(clf.cluster centers , columns-['r', 'g', 'b']) 
clusters 


上 述 代码 生成 图 6-17 的 输 


FE 


ro | 

135.941176 
36.603175 
215.017857 
94.000000 
152.666667 
17.422222 
242.309091 
OC 
ee [| |e feee jose jnre 








图 6-16 图 6-17 


现在 , 从 每 页 的 自 张 图 片 中 ,我 们 获得 了 16 个 最 受 欢 迎 的 主流 颜色 。 接 下 来 使 用 pandas 
的 DataFrame .style() 方 法 以 及 我 们 刚刚 创建 的 为 单元 格 填 色 的 函数 , 来 看 看 这 些 主流 
颜色 长 什么 样子 。 这 里 需要 将 索引 设置 为 等 于 三 列 中 十 六 进 制 值 那 列 ， 以 使 用 我 们 的 
color cells m RAW. 


def hexify (x): 
rgb = [round(x['r']), round(x['g']), round(x['b'])] 








hxc = mpc.rgb2hex([(x/255) for x in rgb]) 

return hxc 

clusters.index - clusters.apply(hexify, axis-1) 
clusters['color'] = ' ' 

clusters.style.apply(color cells, subset-['color'], axis-0) 
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上 述 代 人 码 生 成 图 6-18 的 输出 。 


[IE 
Provoca [rosso [eos [nemo] 
pene [reso esee froen] 


#96886f |149.818182 |136.227273 |111.136364 


#909a9d |144.434783 |154.478261 |156.521739 indi 


#d93733 |217.25 99.25 90.75 


4354967 |52.545455 72.636364 ]|103.272727 


图 6-18 











那么 ,你 看 到 了 。 这 些 是 广 为 流 传 的 内 容 中 最 第 见 的 闫 色 (至 少 在 第 一 张 图 像 中 )。 比 
预期 更 单调 一 点 : 虽然 有 一 些 蓝 色 和 红色 ， 但 多 数 还 是 标 色 这 种 灰 蒙 蒙 的 色调 。 


现在 让 我 们 继续 检视 故事 的 标题 。 
6.3.2 探索 标题 





我 们 将 从 创建 一 个 函数 开始 ， 使 用 它 来 检查 最 常见 的 元 组 。 将 其 设置 好 之 后 ， 将 来 在 
正文 上 也 可 以 使 用 它 。 


from nltk.util import ngrams 
from nltk.corpus import stopwords 
import re 
def get word stats(txt series, n, rem stops-False): 
txt words - [] 
txt len - [] 
for w in txt series: 
if w is not None: 
if rem stops -- False: 


word list = [x for x in ngrams (re.findall('[a-zO- 
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9']+', w.lower()), n)] 

else: 

word list = [y for y in ngrams([x for x in 

re.findall('[a-z0-9']*', w.lower())N 

if x not in stopwords.words('english')], n)] 

word list len = len(list(word list)) 

txt words.extend(word list) 

txt len.append(word list len) 
return pd.Series(txt words).value counts().to frame('count'), 
pd.DataFrame(txt len, columns-['count']) 


153 


这 里 有 很 多 要 解释 ， 所 以 让 我 们 未 步 分 析 。 我 们 创建 了 一 个 函数 并 接收 Series、 一 个 
as 整数 决定 了 我 们 将 用 于 n 元 语法 解析 的 x， 而 布尔 值 决定 我 们 





否 排 除 停 用 词 。 函 数 返 回 每 行 “的 元 组 数目 和 每 个 元 组 的 频率 。 


下 面 让 我 们 在 标题 上 运行 这 个 函数 ， 暂 时 你 持 集 用 词 。 先 从 一 元 语法 开始 。 


hw,hl = get word stats(dfc['title'], 1, 0) 
hl 


上 述 代码 生成 图 6-19 的 输出 。 
现在 ， 每 个 标题 的 字数 都 有 了 ， 让 我 们 来 看 看 其 统计 信息 。 


hl.describe() 


上 述 代 人 码 生 成 图 6-20 的 输出 。 








图 6-19 图 6-20 


QO 译 者 注 : 也 就 是 每 篇 文章 。 
QZP: 这 里 的 元 组 是 指 n 元 语法 生成 的 元 组 。 
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我 们 可 以 看 到 传播 广泛 的 故事 其 标题 长 度 的 中 位 数 恰 好 在 11 个 字 。 让 我 们 来 看 看 最 帝 
用 的 那些 单词 ， 如 图 6-21 所 示 。 

这 种 信息 不 是 很 有 价值 ， 但 它 符 合 我 们 的 期 望 。 让 我 们 来 看 看 二 元 语法 的 同类 信息 。 


hw,hl = get word stats(dfc['title'], 2, 0) 
hw 


上 述 代 人 码 生 成 图 6-22 的 输出 。 








people, who) 


(donald, trump) 


| [uei 
(pictures, that) 
7 
7 
; 7 





图 6-21 图 6-22 


这 肯定 是 更 有 趣 。 从 中 可 以 看 到 标题 中 的 某 些 部 分 反复 出 现 。 最 突出 的 两 个 是 (donalg,， 
trump“) 和 (die，at)。Trump 是 有 道理 的 ， 因 为 他 做 了 一 些 抓 眼球 的 声明 ， 但 令 人 惊讶 的 
是 看 到 关于 死亡 的 标题 。 快 速 浏 览 过 去 一 年 的 头条 新 闻 ， 发 现 一 些 知 名 人 物 最 近 去 世 了 ， 
所 以 这 也 有 一 定 的 意义 。 

现在 让 我 们 去 掉 停 用 词 ， 再 次 运行 代码 。 


hw,hl = get word stats(dfc['title'], 2, 1) 
hw 


上 述 代码 生成 图 6-23 的 输出 。 

再 次 ， 我 们 看 到 了 许多 期 竺 的 东西 。 看 起 来 如 果 我 们 改变 数字 的 解析 方式 〈 用 单个 标 
识 符 ， 例 如 [number] ， 来 殖 换 每 一 个 数字 )， 可 能 会 看 到 更 多 这 样 的 元 组 排名 靠 前 。 如 果 
你 愿意 答 试 ， 我 会 把 这 个 练习 留 给 你 。 

让 我 们 再 来 看 看 三 元 语法 。 


hw,hl = get word stats(dfc['title'], 3, 0) 

















Du 





GO 译 者 注 : Donald Trump 是 美国 2016 年 总 统 大 选 的 候选 人 之 一 。 


6.3 探索 传播 性 的 特征 


上 述 代 人 码 生 成 图 6-24 的 输出 。 


图 6-23 图 6-24 
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看 来 ， 元 组 包括 的 词语 越 多 ， 标 题 越 来 越 像 经 典 的 BuzzFeed 风格 。 让 我 们 看 看 事实 是 
售 如 此 。 我 们 还 没 看 过 哪个 网 站 产生 的 病毒 式 传播 故事 最 多 , 这 里 通过 图 表 来 看 看 BuzzFeed 














dfc['site'].value counts().to frame() 


上 述 代 人 码 生 成 图 6-25 的 输出 。 
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我 们 可 以 清楚 地 看 到 ，BuzzFeed 在 名 单 中 占 主导 地 位 ， 和 第 二 位 Huffington Post 拉 开 
了 明显 的 距离 ， 而 这 个 网 站 也 有 Jonah Peretti 的 参与 。 看 起 来 研究 病毒 式 传 播 的 科学 可 以 
产生 巨大 的 收益 。 

到 目前 为 止 ， 我 们 已 经 检视 了 图 像 和 标题 ， 接 下 来 继续 观察 故事 的 正文 。 
6.3.3 探索 故事 的 内 容 

在 上 一 节 中 ， 我 们 创建 了 一 个 函数 来 发 现 故 事 标题 中 常见 的 n 元 语法 ， 现 在 应 用 这 个 
国 数 来 探索 故事 的 完整 内 容 。 


我 们 将 这 样 开始 : 去 除 停 用 词 ， 使 用 二 元 组 。 因 为 与 故事 主体 相 比 ， 标 题 是 非常 短小 
的 ， 所 以 包含 停止 词 是 有 一 定 意义 的 ， 但 在 故事 正文 中 ， 通 常 去 除 它 们 是 更 合理 的 做 法 。 























hw,hl = get word stats(dfc['text'], 2, 1) 
hw 


上 述 代 码 生 成 图 6-26 的 输出 。 

有 趣 的 是 ， 我 们 在 标题 中 看 到 的 轻松 愉快 的 元 组 在 这 里 完全 消失 了 。 正 文 充满 了 关于 
了 恐怖 主义 、 政 治 和 种 族 关 系 的 讨论 。 

标题 的 内 容 是 轻松 愉快 的 ， 而 正文 的 内 容 却 是 黑暗 而 定 有 和 争议 的 ， 这 怎么 可 能 ? 我 的 
RU “iS Puppies Who Look Like Elvis" H “The History of US Race 
Relations” 这 类 文章 的 字数 要 少 的 多 ”。 


让 我 们 再 来 看 看 一 个 实验 。 这 次 将 评估 故事 正文 的 三 元 组 。 














hw,hl = get word stats(dfc['text'], 3, 1) 
hw 


上 述 代 人 码 生 成 图 6-27 的 输出 。 
我 们 似乎 突然 进入 了 广告 和 社区 活动 的 领域 。 有 了 这 些 ， 让 我 们 继续 构建 内 容 评分 的 
预测 模型 。 








(D 译 者 注 : 作者 的 意思 是 标题 通 第 长 度 都 非常 短 ， 而 正文 的 长 度 相 互 之 间 差 异 很 大 ， 所 以 造成 了 统计 结果 巡 然 。 





图 6-26 图 6-27 


6.4 构建 内 容 评 分 的 预测 模型 
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现在 让 我 们 使 用 所 学 到 的 东西 来 创建 一 个 模型 ， 它 可 以 根据 给 定 的 内 容 ， 预 估 其 被 分 
享 的 次 数 。 我 们 将 使 用 前 文 已 经 创建 的 特征 ， 以 及 几 个 额外 的 特征 。 
理想 情况 下 ， 我 们 需要 一 个 更 大 的 内 容 样 本 ， 特 别 是 有 更 多 分 享 次 数 的 内 容 。 尽 管 这 
样 ， 我 们 还 是 束 手 头 上 的 数据 进行 操作 。 
我 们 将 使 用 一 种 称 为 随机 森林 回归 (random forest regression? 的 算法 。 在 前 面 的 章节 
中 ， 我 们 看 过 随机 森林 一 个 更 典型 的 实现 ， 束 是 基于 分 类 的 模型 。 而 这 里 ， 我 们 将 使 用 回 


归并 笃 试 预测 分 圣 的 次 数 。 当 然 ， 我 们 也 可 以 











次 数 划 分 为 不 同 的 范围 ， 转 化 成 


问题 ， 但 是 对 于 连续 变量 的 处 理 ， 最 好 还 是 使 用 回归 的 技术 。 
自 完 ， 我 们 将 创建 一 个 极其 简单 的 柑 型 。 使 用 的 特征 包括 图 像 的 数量 、 网 站 和 字数 。 


分 类 
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我 们 将 使 用 Facebook 的 Like 数 来 训练 模型 。 


首先 导入 sci-kit 学 习 库 ， 然 后 这 样 预 处 理 数据 : 删除 包含 null 值 的 行 ， 重 置 行 的 索引 
编号 ， 最 后 将 数据 框 切 分 为 训练 集 和 测试 集 。 
from sklearn.ensemble import RandomForestRegressor 
all data = dfc.dropna(subset-['img count', 'word count']) 
all data.reset index(inplace-True, drop-True) 
train index - [] 
test index - [] 
for i in all data.index: 
result = np.random.choice(2, pz-[.65,.35]) 
if result -- 
test index.append(i) 
else: 
train index.append(i) 


我 们 使 用 一 个 随机 数 生成 喜来 确定 哪些 行 的 内 容 《〈《 基 于 它们 的 索引 ) 将 被 放置 在 哪个 
集合 中 ， 其 概率 的 分 配 大 约 为 3 和 1/3。 设 定 这 样 的 概率 ， 可 以 确保 我 们 获得 的 训练 样本 
数量 约 为 测试 样本 数量 的 两 倍 。 如 下 所 示 ， 我 们 可 以 将 其 打印 出 来 。 

print('testlength:', len(test index), '\ntrain length:', len(train index)) 


上 述 代码 生 成 图 6-28 的 输出 。 test length: 140 


现在 ,我 们 将 继续 准备 数据 。 接 下 来 ,需要 为 不 同 的 网 站 设置 一 一 
分 类 型 的 编码 。 目 前 ，DataFrame 对 象 含 有 每 个 站 点 用 字符 串 表 
示 的 名 称 。 我 们 需要 使 用 虚构 的 编码 。 这 将 为 每 个 站 点 创建 一 个 列 。 如 果 该 行 源 于 该 特定 
的 网 站 ， 那 么 该 列 将 用 1 填充 ， 所 有 对 应 其 他 网 站 的 列 用 0 填充 。 如 下 处 理 。 


sites = pd.get dummies (all data['site']) 














图 6-28 











sites 

上 述 代码 生成 图 6-29 的 输出 。 

虚构 的 编码 可 以 在 图 6-29 中 看 到 。 

现在 我 们 继续 将 数据 分 成 训练 集 和 测试 集 ， 如 下 所 示 。 


y train = all data.iloc[train index]['fb'].astype(int) 

X train nosite - all data.iloc[train index][['img count', 'word count']] 
X train = pd.merge(X train nosite, sites.iloc[train index], 

left index-True, right index-True) 

y test = all data.iloc[test index]['fb'].astype (int) 

X test nosite = all data.iloc[test index][['img count', 'word count']] 

X test = pd.merge(X test nosite, sites.iloc[test index], left index-True, 
right index-True) 
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这 样 , RIIET X test. X train. y test 和 y train 变量。 现在 使 用 它们 构 
建 模型 。 


clf = RandomForestRegressor(n estimators-1000) 
clf.fit(X train, y train) 


通过 这 两 行 代码 ， 我 们 训练 了 模型 。 下 面 ， 使 用 这 个 模型 来 预测 测试 集中 的 数据 ， 能 
够 收获 多 少 Facebook 的 Like: 


y actual = y test 

deltas = pd.DataFrame(list(zip(y pred, y actual, (y pred - 

y actual)/(y actual))), columns-['predicted', 'actual', 'delta']) 
deltas 


上 述 代 码 生 成 图 6-30 的 输出 。 
在 这 里 ， 我 们 看 到 并 排 的 预测 值 、 实 际 值 和 差 值 百分比 。 下 面 看 看 这 个 结果 的 描述 性 
统计 。 


deltas['delta'].describe() 
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上 述 代码 生成 图 6-31 的 输出 。 


o ora pere 
o Eeseseomo [zason [ozsors 
1 eoerosooo [sem [oszemr 
s eresosoomo [som [ozre 
a [ereza onoo [rem [oasis 
a posesscomo [asooo [oe pr 


5 259866.000000 |363000 |-0.284116 || 75 . 053903 
587523 
e 262380.500000 |1100000 |-0.761472 -774626 
.297857 
318108.000000 |360000 |-0.116367 Boden 
8 251200.000000 |337000 |-0.254599 277858 
.982869 

9 310909.750000 |336000 |-0.074673 | 名 称 : delta, dtype: float64 





图 6-30 图 6-31 


这 看 起 来 很 怀 人 人。 错误 的 中 位 数 是 0! E, EWE, KAE- TNES HRR, 
因为 在 两 侧 正 和 负 的 错误 都 存在 ， 并 且 它 们 会 中 和 平均 值 ， 就 是 我 们 在 这 里 所 看 的 。 让 我 
们 来 看 一 个 更 具 信 息 性 的 指标 来 评估 这 个 模型 。 我 们 将 把 均 方 根 误 差 〈 也 就 是 标准 差 ) 比 
二 实际 平均 信 。 

首先 ， 来 说 明 一 下 为 什么 这 样 计算 更 有 价值 ， 让 我 们 在 两 个 示例 的 数据 序列 上 运行 以 
下 场景 。 


a = pd.Series([10,10,10,10]) 
b = pd.Series([12,8,8,12]) 
np.sqrt(np.mean( (b-a)**2)) /np.mean (a) 


这 将 产生 图 6-32 的 输出 。 
现在 将 其 与 平均 值 进 行 比 较 。 
(b-a) .mean () 


这 将 产生 图 6-33 的 输出 。 


0.20000000000000001 0.0 
图 6-32 图 6-33 


显然 前 者 是 更 有 意义 的 统计 “。 现 在 为 我 们 的 模型 运行 这 个 统计 。 


np.sqrt(np.mean((y pred-y actual)**2))/np.mean(y actual) 














QRP: 作者 的 意思 是 ， 他 所 建议 的 统计 方式 更 能 体现 数据 的 波动 。 
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上 述 代码 生成 图 6-34 的 输出 。 
za 


0.6934545982263226 
突然 发 现 ， 我 们 的 模型 没有 那么 优秀 了“。 让 我 们 为 


dics i ; TEETE 图 6-34 
模型 添加 另 一 个 特征 。 来 看 看 添加 单词 的 计数 是 个 会 有 助 
于 模型 的 提升 。 我 们 将 使 用 计数 的 向 量 转化 器 来 做 到 这 一 点 。 和 之 前 对 于 网 站 名 称 的 处 理 
很 像 ， 我 们 将 单个 词 和 7mz 元 语法 转换 成 特征 。 
from sklearn.feature extraction.text import CountVectorizer 
vect = CountVectorizer (ngram range-(1,3)) 
X titles all = vect.fit transform(all data['title']) 
X titles train - X titles all[train index] 
X titles test - X titles all[test index] 
X test = pd.merge(X test, pd.DataFrame(X titles test.toarray(), 
index-X test.index), left index-True, right index-True) 
X train = pd.merge(X train, pd.DataFrame(X titles train.toarray(), 
index-X train.index), left index-True, right index-True) 


在 这 些 代 码 行 中 , 我 们 将 新 的 n 元 语法 特征 加 入 到 现 有 的 特征 中 。 现 在 重新 训练 模型 ， 
看 看 是 个 有 任何 改进 。 

clf.fit(X train, y train) 

y pred - clf.predict(X test) 

deltas = pd.DataFrame(list(zip(y pred, y actual, (y pred - 


y actual)/(y actual))), columns-['predicted', 'actual', 'delta']) 
deltas 


上 述 代 码 生 成 图 6-35 的 输出 。 
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图 6-35 

































QFP: 在 这 里 ， 和 平均 值 相 比 ， 较 大 的 流动 意味 着 较 大 的 预测 误 关 。 
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再 次 使 用 以 下 方式 检查 错误 的 情况 。 

np.sqrt(np.mean((y pred-y actual)**2))/np.mean(y actual) 

这 将 产生 图 6-36 的 输出 。 

看 来 模型 有 了 一 定 的 改进 。 让 我 们 为 模型 继续 添加 一 个 特征 。 添 加 标题 的 字数 如 下 。 


all data = all data.assign(title wc = all data['title'].map(lambda x: 
len(x.split(' ')))) 

X train = pd.merge(X train, all data[['title wc']], left index-True, 
right index-True) 

X test = pd.merge(X test, all data[['title wc']], left index-True, 
right index-True) 

clf.fit(X train, y train) 

y pred - clf.predict(X test) 

np.sqrt(np.mean((y pred-y actual)**2))/np.mean(y actual) 


上 述 代 码 生 成 图 6-37 的 输出 。 


0.64352892438189691|0.64134526362902999 | 
图 6-36 图 6-37 


看 来 ， 每 项 特征 都 适度 改进 了 我 们 的 模型 。 当 然 还 有 更 多 可 以 添加 到 模型 中 的 特征 。 
例如 ， 我 们 可 以 增加 星期 几 发 布 和 发 布 的 具体 时 间 ， 还 可 以 通过 在 标题 上 运行 正则 表达 式 
来 确定 某 篇 文章 是 否 采 用 了 清单 体 ?， 或 者 可 以 检查 每 篇 文章 的 情绪 。 对 于 病毒 式 传播 的 
建 模 而 言 ， 这 些 只 是 探索 潜在 重要 的 特征 的 开始 。 为 了 继续 减少 模型 中 的 错误 ， 我 们 肯定 
还 需要 不 断 进步 

我 还 应 该 提 到 ， 目 前 针对 我 们 的 模型 只 做 了 最 粗略 的 测试 。 每 种 测量 方法 都 应 该 运行 
多 次 以 获得 更 准确 的 错误 率 表 示 。 对 于 之 前 两 个 模型 ， 可 能 并 没 不 存在 统计 上 可 辨别 的 差 
异 ， 因 为 我 们 只 执行 了 一 次 测试 。 






































6.5 (£8 


在 本 章 中 ， 我 们 研究 了 病毒 式 传 播 的 共同 特征 ， 以 及 如 何 使 用 随机 森林 回归 构建 模型 ， 并 
预测 传播 性 。 我 们 还 学 习 了 怎样 结合 多 种 类型 的 特征 ， 以 及 如 何 将 数据 分 成 训练 集 和 测试 集 。 

布 望 你 能 利用 这 里 学 到 的 知识 ， 建 立 下 一 个 病毒 式 传 播 的 王国 。 如 末 这 还 不 行 ， 也 许 
下 一 章 关 于 股市 机 会 的 党 控 将 会 是 非常 有 用 的 。 








QFE: 清单 体 〈Listicle) 是 英文 中 的 新 间 ， 它 是 现代 信息 传播 最 吸引 眼球 的 方式 之 一 。 
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在 生物 学 中 ， 有 一 个 相当 知名 的 现象 ， 称 为 红色 星 后 的 竞赛 。 这 个 想法 是 每 个 有 机 体 
都 加 入 一 种 不 能 获得 巨大 优势 的 苋 争 , 而 只 是 能 够 跟 上 不 断 变 化 的 、 元 满 对 立 生 物 的 环境 。 

这 个 词 来 自 Lewis Carol 的 “Through the Looking Glass ”一 书 :“ 现 在 ， 这 里 ， 你 要 理 
解 ， 拼 命 的 奔跑 ， 你 才 可 以 你 持 在 原 地 。” 


这 种 现象 的 一 个 例子 是 耐 抗 生 素 的 超级 细 黄 之 兴起 ， 例 如 MRSA。 随 看 我 们 研 友 出 越 
来 越 强 大 的 抗生素 ， 这 些 细 霄 也 在 进化 越 来 越 好 的 防御 系统 ， 以 打败 我 们 的 药物 。 


这 似乎 和 股票 市 场 没 什么 关系 ， 但 是 同样 的 现象 每 天 都 在 金融 市 场 出 现 。 驳 像 有 生命 
的 有 机 体 那样 ， 市 场 每 天 都 在 演化 ， 今 天 还 能 成 立 的 事情 ， 明 天 可 能 就 完全 行 不 通 了 。 

例如 ,一 篇 偶尔 友 布 的 报道 会 拓 醒 金融 界 存 在 一 种 现象 ， 访 现象 是 基于 茶 些 有 利 可 图 
的 开关 情况 。 通 各 这 样 现 象 是 一 些 外 部 施加 的 、 现 实 世 界 约束 的 下 游 效 应 。 例 如 年 终 税收 
导致 的 亏损 卖 出 。 由 于 税法 的 性 质 ， 对 于 交易 者 而 言 ， 在 年 撒 卖 出 他 们 的 亏损 股票 是 很 合 
理 的 。 接 近年 撒 的 时 候 ， 这 将 对 亏损 的 股票 产生 价格 下 行 的 压力 ， 使 得 该 股票 低 于 其 合理 
的 市 场 价值 。 这 也 意味 大 1 月 份 来 临 的 时 候 ， 下 行 的 压力 没有 了 ， 这 种 股票 面临 的 是 网 上 
的 压力 ， 原 因 是 新 的 资金 再 次 投入 这 些 被 低 佑 的 人 资产。 但是， 一 旦 这 种 现象 家 广播 ， 对 于 
交易 者 而 言 ， 他 们 只 有 做 到 先行 一 步 才 有 意义 ， 也 融 是 在 12 HEATER, HE 1 H sez 
其 他 交易 者 。 这 些 试 图 获得 早期 优势 的 新 交易 者 ， 现 在 进入 了 市 场 并 稀释 了 伪 利 的 效 来 。 

他 们 正在 缓解 年 底 的 抛售 压力 ， 并 减少 了 1 月 份 的 购买 动力 。 这 种 效应 本 质 上 是 随 着 
利润 一 起 套利 。 曾 经 奏效 的 操作 不 再 有 灵验， 交易 者 开始 放 径 这 个 成 略 ， 并 继续 寻找 下 一 个 
新 的 事物 。 为 了 避免 “不 进 则 退 ”， 交 易 者 必须 快速 地 适应 。 


在 本 半 中 ， 我 们 将 花 一 些 时 间 讨 论 如 何 构 建 和 测试 交易 策略 。 不 过 ， 我 们 将 花 更 多 的 时 
间 ， 研 究 如 何 “ 不 ”这 样 做 。 在 设计 自己 的 系统 时 ， 有 无 数 的 陷阱 需要 规避 ， 这 几乎 是 一 个 
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不 可 能 完成 的 任务 。 人 然而， 这 个 过 程 可 以 有 很 多 的 乐趣 一 一 有 时 ， 它 甚至 可 以 创造 利润 。 
我 们 将 在 本 章 讨论 以 下 主题 。 
e 市 场 分 析 的 类 型 。 
e 关 于 股票 市 场 ， 研 究 告诉 我 们 些 什么 ? 
e 如 何 开发 一 个 交易 系统 。 
e 构 建 和 评估 你 的 机 器 学 习 模 型 。 
请 不 要 使 用 本 章 中 的 信息 做 傻 事 。 不 要 拿 你 无 法 承受 
的 金额 去 冒险 。 如 果 你 决定 使 用 任何 这 里 学 习 的 内 容 
L 进行 交易 ， 你 都 要 为 自己 的 行为 负责 。 这 里 所 学 的 知 
识 都 不 应 该 被 视 为 任何 类 型 的 投资 建议 ， 我 不 会 对 你 
的 行为 承担 任何 责任 。 





7.1 市 场 分 析 的 类 型 


刚 开 始 ， 让 我 们 先 讨 论 一 些 涉及 金融 市 场 的 天 键 术 语 和 分 析 方 法 。 虽 然 有 无 数 的 金融 
工具 ， 如 股票 、 债 券 、 交 易 型 开放 式 指数 基金 (ETF)、 汇 市 、 互 惠 挥 换 每 ， 这 里 我 们 将 讨 
论 的 内 容 限于 股票 和 股票 市 场 。 股 票 只 是 上 市 公司 所 有 权 的 一 小 部 分 。 当 公司 的 未 来 前 景 
被 看 好 时 ， 人 们 就 预期 股票 的 价格 会 增长 ， 而 前 景 不 被 看 好 时 ， 了 预 期 价格 融会 下 跌 。 

投资 者 一 般 属 于 下 列 这 两 个 阵营 之 一 。 第 一 阵营 相信 基本 和 面 的 分 析 。 基 本 面 分 析 师 通 
公司 的 财务 状况 来 寻找 信息 ， 碍 明 市 场 对 公司 的 股票 是 否 低 佑 。 这 些 投资 者 关注 各 种 因 
， 例 如 和 营 收 、 熏 利和 现金 流 。 他 们 也 观察 与 这 些 什 有关 的 许多 比率 。 很 多 时 候 ， 这 涉及 
看 两 家 公司 财务 对 比 的 情况 。 

第 二 阵 各 的 投资 者 是 技术 分 析 师 。 近 术 分 析 师 认为 股票 的 股价 已 经 反映 了 所 有 可 用 的 
公共 信息 ， 而 研究 基本 面 很 大 程度 上 是 浪费 时 间 。 他 们 相信 ， 通 过 查阅 历史 价格 一 一 股票 
图 表 一 一 一 个 人 可 以 看 到 价格 可 能 上 涨 、 下 跌 或 停滞 不 前 的 区 间 。 一 般 来 次 ， 他 们 筑 得 这 
些 图 表 为 揭示 投资 者 的 心理 提供 了 线索 。 

这 两 个 群体 的 共同 点 是 一 个 潜在 的 信念 ， 它 认为 正确 的 分 析 可 以 让 我 们 获得 利润 。 不 
过 ， 这 是 真 的 吗 ? 
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7. 2 关于 股票 市 场 ， 研 究 告诉 我 们 些 什么 











在 过 去 50 年 中 ， 股 票 市 场 最 有 影响 力 的 理论 也 许 是 有 效 市 场 假设 。 这 个 理论 是 由 
Eugene Fama 发 明 的 ， 它 认为 市 场 是 理性 的 ， 所 有 可 用 的 信息 都 充分 反映 在 股票 价格 上 。 
因此 ， 某 位 投资 者 不 可 能 在 风险 调整 的 基础 上 始终 “打败 市 场 ” 有 效 市 场 假说 通常 被 认为 
其 有 三 种 形式 : IIA PIRAM 


在 弱 式 下 ， 市 场 是 有 效 的 意义 在 于 ， 投 资 者 无 法 使 用 过 去 的 价格 信息 来 预测 未 来 的 价 
格 。 股 票 反 映 出 的 信息 是 相对 较 快 的 。 此 外 ， 虽 然 技术 分 析 是 无 效 的 ， 在 茶 些 情况 下 基本 
面 分析 可 能 是 有 效 的 。 

在 半 强 式 中 ,价格 以 无 偏 的 方式 ， 立 即 反 映 出 所 有 相关 的 最 新 公开 信息 。 这 种 情况 
Fo 技术 分 析 和 基本 和 面 分 析 都 无 法 到 效 。 最 后 ， 在 强 式 中 ， 股票 价格 反映 所 有 公开 和 私 


mz [> 
密 信 B. 


基于 这 些 理论 ， 想 利用 市 场 的 模式 来 赚钱 ， 布 望 并 不 大 。 辛 运 的 是 ， 昌 然 市 场 整 体 上 
是 以 有 效 的 形态 运作 ， 但 是 人 们 还 是 友 现 了 一 些 不 太 局 效 的 地 方 。 往 往 大 多 数 现象 部 是 短 
暂 的 ， 不 过 有 些 确 是 一 直 存 在 。 最 普遍 的 一 一 即使 是 根据 Fama 的 理论 一 一 是 动量 交易 策略 
的 优秀 表现 。 


那么 ， 什 么 是 动量 交易 集 略 呢 ? 其 主 则 有 很 多 变 体 ， 但 其 基本 思想 是 按照 股票 前 一 段 
时 间 的 回报 ， 将 它们 从 融 到 低 进 行 排 名 。 买 入 表现 最 佳 的 股票 并 持 有 一 段 时 间 ， 然 后 在 一 
定时 期 之 后 重复 该 过 程 。 一 个 典型 的 长 期 动量 交易 束 略 可 能 是 购买 标准 普尔 500 指数 中 ， 
过 去 一 年 的 表现 排名 前 25 的 股票 ， 持 有 它们 一 年 ， 然 后 重复 这 个 过 程 。 

这 听 起 来 像 一 个 极其 简单 的 策略 一 一 确实 如 此 。 但 是 ， 它 已 经 在 不 断 地 返回 和 和 人们 预 
期 不 一 致 的 结束 。 为 什么 呢 ? 你 可 以 想象 ， 很 多 研究 都 有 观测 这 种 效应 ， 其 假设 是 关于 人 
们 如 何 处 理 新 的 信息 ， 人 存在 菏 些 内 在 的 、 系 统 性 的 侦 兰 。 研 究 表 明 他 们 短期 内 对 新 闻 反 应 
不 足 ， 然 而 长 期 来 看 对 新 闻 义 反应 过 度 了 。 

随 独 越 来 越 多 的 交易 者 学 习 这 个 理论 并 涌 入 市 场 ， 这 种 效应 会 实现 获 利 吗 ? 近年 来 有 
一 些 证 据 显 露出 来 ， 但 仍 不 明明 。 无 论 如 何 ， 其 效 末 是 真实 的 ， 并 且 持 续 时 间 远 远 超 过 有 
效 市 场 假 设 当前 所 能 解释 的 那 部 分 ， 所 以 还 有 和 希望。 有 了 这 种 微小 的 希望 ， 让 我 们 继续 下 
一 步 ， 看 看 如 何 友 现 属于 目 己 的 异 单 。 
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7.3 如 何 开发 一 个 交易 策略 


我 们 冯 先 专注 于 技术 方面 ， 以 此 开始 策略 的 研发 。 来 看 看 在 过 去 的 几 年 中 ， 标 准 普 尔 
500 指数 的 表现 。 我 们 将 使 用 pandas 的 功能 来 导入 数据 。 这 让 我 们 可 以 访问 多 个 股票 数据 
来 源 ， 包 括 Yahoo! 和 Google. 





首先 ， 需 要 安装 datareader 包 。 这 可 以 使 用 命令 行 通过 pip 安装 : pip install 


pandas datareader. 


然后 ， 我 们 将 继续 设置 包 的 导入 ， 如 下 所 示 。 


import pandas as pd 
from pandas datareader import data, wb 
import matplotlib.pyplot as plt 


$matplotlib inline 

pd.set option('display.max colwidth', 200) 

现在 ， 我 们 将 获取 SPY ETF 的 数据 。 它 代表 了 标准 普尔 500 的 股票 。 我 们 将 拉 取 从 2010 
年 初 到 2016 年 3 月 初 的 数据 。 

import pandas datareader as pdr 


start date = pd.to datetime('2010-01-01') 
stop date = pd.to datetime('2016-03-01"') 


Spy = pdr.data.get data yahoo('SPY', start date, stop date) 


上 述 代 人 码 生 成 图 7-1 的 输出 。 


[ren | enn ine | Men | aen [eet 
2010-01-04 | 112.370003 | 113.389999 | 111.510002 | 113.330002 | 118944600 | 100.323436 
2010-01-05 | 113.260002 | 113.680000 | 112.849998 | 113.629997 | 111579900 | 100.589001 
2010-01-06 | 113.519997 | 113.989998 | 113.430000 | 113.709999 | 116074400 | 100.659822 
2010-01-07 | 113.500000 | 114.330002 | 113.180000 | 114.190002 | 131091100 | 101.084736 
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图 7-1 
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现在 可 以 绘制 这 些 数据 了 。 我 们 只 选择 收盘 价 ， 如 下 所 示 。 
Spy c = spy['Close'] 


fig, ax = plt.subplots(figsize-(15,10)) 
spy c.plot(colorz'k') 
pit.title("SPY", fontsize-20) 


上 述 代 码 生 成 图 7-2 的 输出 。 




















在 图 7-2 中 ， 我 们 看 到 了 选 定 时 期 内 ， 标 准 普尔 500 指数 日 收盘 价 的 价格 图 。 让 我 们 
进行 一 点 分 机 ， 看 看 如 果 投 资 这 个 ETF， 访 期 间 内 的 回报 将 是 多 少 。 


我 们 乞 拉 取 首 个 开盘 日 的 数据 。 


first open = spy['Open'].iloc[0] 











first open 
上 述 代码 生成 图 7-3 的 输出 。 
接 下 来 ， 让 我 们 得 到 该 期 间 了 最 后 一 天 的 收盘 价 。 


last close = spy['Close'].iloc[-1] 
last close 


这 将 导致 图 7-4 的 输出 。 


112.370003 1198.11000100000001 


图 7-3 图 7-4 
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最 后 ， 让 我 们 看 看 整个 时 期 的 变化 。 

last close - first open 

上 述 代 码 生 成 图 7-5 的 输出 。 

因此 ， 看 起 来 在 这 个 时 期 开始 的 时 候 ， 购 入 100 股 股票 全 花费 我 们 大 约 11,237 美元 ， 
该 时 期 结束 时 ,相同 的 100 股 股份 价值 约 为 19,811 美元 。 这 笔 交 易 将 给 我 们 带 来 超过 7696 
的 收益 。 相 当 不 钳 了 。 

现在 让 我 们 看 看 同一 时 期 内 ， 盘 中 交易 的 收益 。 这 个 操作 假说 我 们 在 每 日 开盘 时 屎 入 
股票 ， 并 在 当天 收盘 时 卖 出 股票 。 

spy['Daily Change'] = pd.Series(spy['Close'] - spy['Open']) 

这 行 代码 将 提供 每 天 从 开盘 到 收盘 的 变化 。 让 我 们 来 看 看 。 

spy['Daily Change'] 


上 述 代码 生成 图 7-6 的 输出 。 

















2010-01-04 959959 
. 369995 
.190002 
.690002 
.680001 
.349999 
2010-01-12 .309997 
2010-01-13 .670006 


85.739998000000014 


2010-01-14 
2010-01-15 
2010- 01-19 


2010-01-25 
2010-01-26 
2010-01-27 
2010-01-28 
2010-01-29 
2010-02-01 
2010-02-02 
2010-02-03 


.440002 
.090004 
.439995 
.390000 
2.220001 
.989998 
.440002 
.029998 
.660004 
.620002 
.650002 
.909996 
.119995 
.049995 





图 7-5 图 7-6 
现在 让 我 们 将 这 段 时 期 的 变化 加 和 。 


spy['Daily Change'].sum() 41.460173000000196 


上 述 代码 生成 图 7-7 的 输出 。 图 7-7 


所 以 , 你 可 以 看 到 ， 我们 的 收 荔 已 经 从 超过 85 点 的 增长 ， 下 降 到 刚刚 过 41 点 的 增长 。 
哎哟 ! 一半 以 上 的 市 场 收 荔 来 自 于 这 段 时 期 内 整 日 整 夜 地 持 有 股票 。 
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隔夜 交易 的 回报 率 优 于 盘 中 交易 的 回报 率 ， 但 是 波动 性 又 如 何 呢 ? 人 们 总 是 在 风险 
调整 的 基础 上 判断 回报 的 ， 所 以 让 我 们 来 看 看 基于 标准 兰 ， 隅 夜 交 易 和 盘 中 交易 相 比 较 各 
目 表 现 如 何 。 

我 们 可 以 使 用 NumPy 来 计算 盘 中 交易 的 标准 兰 ， 共 体 如 下 。 

np.std(spy['Daily Change']) 

上 述 代码 生成 图 7-8 的 输出 。 

现在 ， 让 我 们 计算 隔夜 交易 的 标准 关 。 

spy['Overnight Change'] = pd.Series(spy['Open'] - spy['Close'].shift(1)) 

np.std(spy['Overnight Change']) 


上 述 代码 生成 图 7-9 的 输出 。 

















1.1449966111357177/|0.95281601518051173 


AE, BOSE) ABESSE. Zr. HAEA BISCSITE fioe 


图 7-8 图 7-9 











相等 的 。 让 我 们 比较 两 种 策略 ， 在 下 跌 交 易 日 的 平均 变化 。 
自 完 ， 让 我 们 来 看 看 下 跌 交 易 日 的 每 日 变化 。 
spy[spy['Daily Change']«0]['Daily Change'].mean() 
上 述 代码 生成 图 7-10 的 输出 。 
现在 ， 我 们 来 看 看 下 跌 交 易 日 的 隔夜 变化 。 
spy[spy['Overnight Change']«0]['Overnight Change'].mean() 


上 述 代码 生成 图 7-11 的 输出 。 


-0.90606707692307742|-0.66354681502086243 | 
图 7-10 图 7-11 


再 次 ， 我 们 看 到 隅 夜 交 易 人 策略 的 平均 下 降幅 度 小 于 一 中 交易 脓 略 的 。 

到 目前 为 止 ， 我 们 部 是 观测 的 数据 点 ， 现 来 看 看 回报 。 这 将 有 助 于 在 更 现实 的 背景 下 
讨论 我 们 的 收益 和 损失 。 继续 前 面 的 三 个 策略 “, 我 们 将 为 每 个 场景 构建 一 个 pandas 数 据 序 
列 : 每 日 回报 〈 昨 日 收盘 到 今日 收盘 的 价格 变化 入 盘 中 回报 《当日 开盘 到 收盘 的 价格 变化 ) 
和 陋 夜 回报 《昨日 收盘 到 今日 开盘 的 价格 变化 )， 有 基体 如 下 。 


























DZH: 这 里 存在 笔 误 ， 之 前 只 提 到 了 两 个 策略 。 
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daily rtn = ((spy['Close'] - 
spy['Close'].shift(1))/spy['Close'].shift(1))*100 

id rtn = ((spy['Close'] - spy['Open'])/spy['Open']) *100 

on rtn = ((spy['Open'] - spy['Close'].shift(1))/spy['Close'].shift(1))*100 


我 们 所 做 的 是 使 用 pandas. shift () 方 法 以 当天 的 数据 序列 减 去 前 面 一 天 的 数据 序 
列 。 例 如 ， 对 于 前 面 代码 中 的 第 一 个 Series， 每 天 我 们 从 当日 收盘 价 中 减 去 前 一 日 的 收 
税 价 。 由 于 是 计算 差价 ， 所 以 新 的 Series 所 包含 的 数据 点 会 少 一 个 。 如 果 打 印 出 新 的 














Series， 你 可 以 看 到 以 下 内 容 。 
daily rtn 
上 述 代 码 生 成 图 7-12 的 输出 。 


现在 来 看 看 所 有 三 个 策略 的 统计 信息 。 我 们 将 创建 一 个 
浮 数 ， 它 将 接收 每 个 回报 的 数据 序列 ， 然 后 打印 出 摘要 性 的 
结果 。 我 们 要 得 到 每 一 次 获 利 、 亏 损 和 和 鳃 亏 平衡 交易 的 统计 
数据 ， 以 及 名 为 夏普 比率 (Sharpe ratio) 的 东西 。 我 之 前 说 
过 ， 回 报 是 根据 风险 调整 后 的 基础 来 判断 的 。 这 正 是 夏普 比 
率 将 要 提供 给 我 们 的 。 它 是 一 种 考虑 回报 的 波动 性 ， 来 比较 
回报 的 方法 。 这 里 ， 我 们 使 用 调整 过 的 夏普 比率 来 计算 年 化 
比率 。 


def get stats(s, n-252): 











s = s.dropna() 

wins = len(s[s»0]) 
losses = len(s[s«0]) 
evens = len(s[s--0]) 


mean w = round(s[s>0] .mean() ，3) 
mean 1 = round(s[s«0].mean(), 3) 
win r = round(wins/losses, 3) 
mean trd - round(s.mean(), 3) 

sd = round(np.std(s), 3) 

max 1 = round(s.min(), 3) 

max w — round(s.max(), 3) 


2010-01-08 
2010-01-11 
2010-01-12 
2010-01-13 
2010-01-14 
2010-01-15 
2010-01-19 
2010-01-20 
2010-01-21 
2010-01-22 
2010-01-25 
2010-01-26 
2010-01-27 


sharpe r - round((s.mean()/np.std(s))*np.sqrt(n), 4) 


cnt = len(s) 

print('Trades:', cnt,N 
'AnWins:', wins, 
'AnLosses:', losses,WN 
'AnBreakeven:', evens,WN 
'AnWin/Loss Ratio', win r,\ 


NaN 


.264709 
.070406 
.422129 
«2341717 
.139655 
.932624 
.844623 
.270456 
.122423 
.249559 
.016860 
.922910 
.229184 
512772 
.419057 
.475715 
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'\nMean Win:', mean w,N 

'\nMean Loss:', mean 1,\ 

'AnMean', mean trd,\ 

'AnStd Dev:', sd,\ 

'\nMax Loss:', max 1,\ 

'\nMax Win:', max w,\ 

'AnSharpe Ratio:', sharpe r) 
现在 让 我 们 在 每 个 策略 上 运行 相关 的 代码 并 得 看 统计 信息 。 这 里 将 从 买 入 并 持 有 的 寅 

略 《每 日 回报 〉 开始 ， 然 后 再 切换 到 另外 两 个 ， 其 体 如 下 。 

get stats(daily rtn) 
上 上 述 代码 生成 图 7-13 的 输出 。 


get stats(id rtn) 


上 述 代码 生成 图 7-14 的 输出 。 








交易 次 数 : 1550 
交易 次 数 : 1549 AAR: 851 
恒利 次 数 : 844 亏损 次 数 ; 689 
亏损 次 数 ; 699 将 亏 平 衡 次 数 : 10 
僵 亏 平衡 次 数 : 6 T 8]/ 18150 1.235 
僵 利 /亏损 比例 1.207 FAIRE: 0.517 


僵 利 的 平均 值 ; 0.691 亏损 的 平均 值 ; -0.59 
亏损 的 平均 值 : -0.743 平均 收益 0 .021 
Jesum De FRE: 0.758 
标准 差 : 1.009 Eee 
最 大 亏损 : -6.512 最 大 亏损 : . 
CK RJ 4.65 RAKAA 3.683 
夏普 比率 : 0.6477 夏普 比率 : 


0.4472 





图 7-13 图 7-14 

get stats(on rtn) 

上 述 代码 生成 图 7-15 的 输出 。 

如 你 所 见 ， 在 三 个 集 略 中 ， 买 入 并 持 有 的 策略 上 其 有 最 蜗 的 平均 回报 京 以 及 最 局 的 回报 
率 标 准 着 。 它 也 包含 了 最 大 的 单 日 下 跌 《〈 亏 损 )。 还 有 一 点 仁 得 注意 的 是 ， 即 使 隔夜 策略 和 
盘 中 策略 有 看 几乎 相同 的 平均 回报 ， 其 波动 性 明显 较 小 。 因 此 ， 隔 夜 策略 的 收 普 比率 要 高 
T CAEN. 

到 目前 阶段 ， 我 们 拥有 一 个 相当 不 错 的 基准 线 了 ， 可 以 用 它 来 比较 我 们 后 续 的 策略 。 
现在 ， 我 要 告诉 你 一 个 新 的 末 上 略 ， 它 将 绝对 性 地 击败 目前 所 有 的 三 个 束 略 。 

让 我 们 来 看 看 这 个 新 的 神秘 集 略 的 统计 数据 ， 如 图 7-16 所 示 。 
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交易 次 数 : 1549 
熏 利 次 数 : 821 交易 次 数 : 1549 
亏损 次 数 : 720 uc 454 ， 
一 亏 平 衡 次 数 : 8 亏损 次 数 : 34 
盈利 /亏损 比例 1 .14 f cH EI 755 
REM: 0.421 僵 利 /亏损 比例 1.335 
便利 的 平均 值 : 0.684 


亏损 的 平均 值 ; -0.437 ee 
平均 收益 0.02 s 
标准 差 : 0.63 标准 差 : 0.663 
最 大 亏损 : -5.227 最 大 亏损 : -3.46 
最 大 盈利 : 4.09 ERMA): 5.93 
夏普 比率 : 0.5071 夏普 比率 : 1.6675 





图 7-15 图 7-16 


4 fx Ws. 我 的 夏普 比率 几乎 是 买 入 并 持 有 开 略 的 三 倍 ， 并 明显 地 降低 了 波动 性 ， 
增加 了 最 大 收益 ， 并 将 最 大 损失 降低 近 一 半 。 

我 是 如 何 设 计 这 种 战胜 市 场 的 策略 的 ?请 和 等 一 下 …… 在 测试 的 时 间 段 内 ， 对 于 隔夜 
策略 我 生成 了 1,000 次 随机 信号 《〈 买 入 或 者 不 买 入 )， 然 后 选择 表现 最 好 的 一 个 。 这 给 了 我 
最 好 的 1000 次 随机 信和 与 组 合 。 

这 显然 不 是 战胜 市 场 的 方式 。 那 么 ， 为 什么 我 这 样 做 呢 ? 我 这 样 做 是 为 了 证 明 ， 如 果 
你 测试 足够 多 的 策略 ， 事 实 是 你 偶然 会 遇 到 一 些 似乎 是 很 棒 的 策略 。 这 就 是 所 谓 的 数据 控 
掘 请 误 ， 是 交易 策略 开发 中 的 真正 风险 。 这 就 是 为 什么 某 个 策略 和 现实 世界 的 行为 相对 应 
是 如 此 的 重要 一 一 而 行为 ， 由 于 一 些 现实 的 约束 而 产生 了 系统 性 的 偏差 。 如 果 你 想 在 交易 
中 占有 优势 ， 不 要 和 市 场 进行 交易 ， 而 是 与 市 场 的 参与 者 进行 交易 。 


我 们 要 占 优 势 ， 束 要 深入 地 理解 人 们 对 某 些 情况 如 何 做 出 反应 。 
7.3.1 延长 我 们 的 分 析 周 期 


现在 延伸 我 们 的 分 析 。 首 先 ， 从 标准 普尔 500 指数 拉 取 目 2000 年 开始 的 数据 。 


start date = pd.to datetime('2000-01-01') 
stop date = pd.to datetime ('2016-03-01') 
Sp = pdr.data.get data yahoo('SPY', start date, stop date) 























让 我 们 看 看 这 个 图 表 。 

fig, ax = plt.subplots (figsize=(15,10)) 
sp['Close'].plot(colorz2'k') 
pit.title("SPY", fontsize-20) 


上 述 代 人 码 生 成 图 7-17 的 输出 。 
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图 7-17 


在 图 7-17 中 ， 我 们 看 到 了 从 2000 年 开始 到 2016 年 3 H 1 日 期 间 ，SPY 的 价格 变化 。 
当时 一 定 存 在 很 多 波动 ， 市 场 同 时 经 历 了 相对 的 高 点 和 低 点 。 


让 我 们 在 这 个 新 扩展 的 时 间 段 内 ， 获 取 三 个 基本 策略 的 基准 线 。 
上 自 完 ， 让 我 们 为 每 个 集 略 设置 变量 ， 如 下 所 示 。 


long day rtn = ((sp['Close'] - 
sp['Close'].shift(1))/sp['Close'].shift(1))*100 





long id rtn = ((sp['Close'] - sp['Open'])/sp['Open']) *100 
long on rtn - ((sp['Open'] - 
sp['Close'].shift(1))/sp['Close'].shift(1))*100 


现在 ， 让 我 们 看 看 每 个 策略 的 总 体 数据 。 

1. 首先 是 每 日 回报 。 

(sp['Close'] - sp['Close'].shift(1)).sum() 
上 述 代码 生成 图 7-18 的 输出 。 

2. 然后 是 盘 中 回报 。 


(sp['Close'] - sp['Open']).sum() 
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上 述 代码 生成 图 7-19 的 输出 。 


图 7-18 图 7-19 
3. 最 后 是 隅 人 夜 回报 。 
(sp['Open'] - sp['Close'].shift(1)).sum() 
上 述 代码 生成 图 7-20 的 输出 。 
现在 ， 让 我 们 看 看 每 种 策略 的 统计 数据 。 
4. 自 完 ， 我 们 得 到 每 日 回报 的 统计 量 。 
get stats (long day rtn) 


上 述 代 码 生 成 图 7-21 的 输出 。 











交易 次 数 : 4064 
盈利 次 数 : 2168 
亏损 次 数 : 1881 
一 亏 平衡 次 数 : 15 
盈利 /亏损 比例 1.153 


恒利 的 平均 值 : 0.819 
KE ERE -0.91 
平均 收益 
e i 275 
最 大 亏损 : -9.845 
最 天 和 恒利: 14.52 
夏普 比率 : 0.1958 





86.77226799999964 
图 7-20 图 7-21 
5$， 接 下 来 ， 我 们 获取 一 中 回报 的 统计 量 。 
get stats(long id rtn) 
上 述 代码 生成 图 7-22 的 输出 。 
6. 最 后 ， 我 们 得 到 隅 夜 回报 的 统计 量 。 
get stats(long on rtn) 
上 述 代码 生成 图 7-23 的 输出 。 


我 们 可 以 看 到 ， 在 更 长 的 考察 时 间 内 ， 三 者 之 间 的 差异 更 加 显著 。 如 果 我 们 在 过 去 16 
年 间 ， 只 在 白天 持 有 标准 普尔 ETF， 那 么 我 们 会 亏 钱 。 如 果 我 们 只 在 夜间 持 有 ETF， 回 报 就 
会 得 到 超过 50% 的 改善 1! “当然 ， 这 里 假设 没有 交易 成 本 、 没 有 税收 ， 每 次 买 入 卖 出 都 是 
































Q 译 者 注 : 此 处 作者 的 意思 是 ， 和 购买 并 持 有 相 比 ， 如 果 每 天 晚间 买 入 并 且 在 每 天 早上 卖 出 ， 你 将 获得 额外 的 
509/545 7] . 
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完美 衔接 ， 但 无 论 如 何 ， 这 是 一 个 了 不 起 的 发 现 。 


交易 次 数 : 4065 
便利 次 数 : 2128 交易 次 数 : 4064 
亏损 次 数 : 1908 盈利 次 数 : 2152 
RFF: 29 亏损 次 数 : 1878 
便利 /亏损 比例 1 .115 便 亏 平衡 次 数 : 34 | 
恒利 的 平均 值 : 0.686 恒利 /亏损 比例 1.146 


云 捐 的 平均 值 。 -0.766 熏 利 的 平均 值 : 0.436 
亏损 的 平均 值 : -0.466 


平均 收益 0.016 
标准 差 ; 1.052 标准 差 : 0.696 


最 大 亏损 : -8.991 最 大 亏损 : -8.322 
最 大 便利 : 8.435 EXER: 6.068 
夏普 比率 : -0.0063 夏普 比率 : 0.3541 





图 7-22 图 7-23 


7.3.2 使 用 支持 向 量 回归 ， 构 建 我 们 的 模型 


现在 我 们 有 一 个 基线 用 于 比较 ， 接 下 来 构建 第 一 个 回归 模型 。 我 们 将 从 一 个 非常 基本 
的 模型 和 开始， 上 5 A o S a 
量 回 归来 构建 此 模型 。 有 了 这 些 ， 下 面 开 始 建立 模型 。 
是 为 包含 每 一 天 价格 的 历史 记录 设置 DataFrame 对 象 。 在 这 个 模型 中 ， 我 们 
Pe Ne ap pein 


for i in range(1, 21, 1): 
sp.loc[:,'Close Minus ' + str(i)] = sp['Close'].shift (i) 











sp20 = sp[[x for x in sp.columns if 'Close Minus' in x or x == 
'Close']].iloc[20:,] 
sp20 


上 述 代 人 码 生 成 图 7-24 的 输出 。 


Er 前 1 日 的 | 前 2 日 的 前 3 日 的 前 4 日 的 | 前 5 日 的 | 前 6 日 的 | 前 7 日 的 | 前 8 日 的 | 前 9 日 的 quos 
日 期 | 


S: 140.937500 | 139.562500 | 135.875000 | 140.250000 | 140.812500 | 141.937500 | 140.343704 | 144.437500 | 144.750000 | 147.000000 raal 146.968704 
"ind 141.062500 | 140.937500 | 139.562500 | 135.875000 | 140.250000 | 140.812500 | 141.937500 | 140.343704 | 144.437500 | 144.750000 A 145.812500 


| 
tmu docu acu us mauu Has sna. mua call nil uut 
人 
-:- sa Hein mau su ee 


图 7-24 
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这 个 代码 在 同一 行 给 出 了 每 天 及 其 前 20 个 交易 日 的 收盘 价 。 
这 将 形成 我 们 为 模型 所 提供 的 对 数组 的 基础 。 但 是 ， 在 完全 就 绪 之 前 ， 还 有 几 个 额外 














Bo. 我们 将 显 倒 这 些 列 ， 这 样 从 左 到 右 就 是 最 早 时 间 到 最 晚 时 间 的 顺序 ， 如 下 所 示 。 


sp20 = sp20.iloc[:,::-1] 


前 9 日 的 
收盘 





图 7-25 


现在 ， 让 我 们 导入 文 持 同 量 机 ， 并 设置 训练 和 测试 窃 阵 ， 以 及 每 个 数据 点 的 目标 辐 量 。 


from sklearn.svm import SVR 

clf = SVR(kernel-'linear') 

X train = sp20[:-1000] 

y train = sp20['Close'].shift(-1)[:-1000] 
X test sp20[-1000:] 

y test - sp20['Close'].shift(-1)[-1000:] 


我 们 只 有 4000 多 个 数据 点 可 以 使 用 ， 并 选择 使 用 最 后 的 1000 个 作为 测试 。 现 在 让 我 
们 拟 合 模型 ， 并 使 用 它 来 测试 样本 之 外 的 数据 ， 上 有 具体 如 下 。 


model = clf.fit(X train, y train) 











preds - model.predict(X test) 
现在 我 们 有 上 自己 的 预测 了 ， 将 它们 与 实际 的 数据 进行 比较 。 


tf = pd.DataFrame(list(zip(y test, preds)), columns-['Next Day Close', 





'Predicted Next Close'], index-y test.index) 
tf 


上 述 代 人 码 生 成 图 7-26 的 输出 。 


评估 模型 的 性 能 
让 我 们 来 看 看 模型 的 性 能 。 如 果 预 测 的 当日 收盘 价 高 于 当日 开盘 价 ， 那 么 我 们 融会 在 
当天 开盘 时 买 入 。 然 后 我 们 会 在 当天 收盘 时 卖 出 。 
EFR, RIDI DataFrame 对 象 添加 一 些 和 额外 的 数据 点 来 计算 结果 ， 如 下 所 示 。 


cdc = sp[['Close']].iloc[-1000:] 


ndo 


Close', 
tf2 


7.3 如 何 开发 一 个 交易 策略 


收盘 的 实际 值 收盘 的 预测 值 
€ d  — 
porone I frora 


awresw[eonem [emen 
ares own [raorao — 
mrs cese ure — 


图 7-26 














sp[['Open']].iloc[-1000:].shift(-1) 
tfl = pd.merge(tf, cdc, left index-True, right index-True) 

tf2 = pd.merge(tfl, ndo, left index-True, right index-True) 
tf2.columns - ['Next Day Close', 


'Next Day Open'] 


上 述 代码 生成 图 7-27 的 输出 。 


012-03-09 





140.440002 140.792090 140.850006 
140.210007 140.356091 140.440002 
139.199997 140.104833 140.210007 139.179993 


A 7-27 


下 一 个 交易 日 


收盘 的 实际 值 收盘 的 预测 值 收盘 的 实际 值 开盘 的 实际 值 
~” | | | 
u 








'Predicted Next Close', 'Current Day 


138.320007 
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在 这 里 ， 我 们 将 添加 以 下 代码 来 获取 收益 和 亏损 的 信号 量 。 


def get signal(r): 
if r['Predicted Next Close'] » r['Next Day Open']: 
return 1 





else: 
return O0 
def get ret(r): 
if r['Signal'] -- 
return ((r['Next Day Close'] - r['Next Day Open'])/r['Next 
Day Open']) * 100 
else: 
return O0 
tf2 = tf2.assign(Signal = tf2.apply(get signal, axis-1)) 
tf2 = tf2.assign(PnL = tf2.apply(get ret, axis-1)) 
tf2 


上 述 代码 生成 图 7-28 的 输出 。 


BRI | | | | 

er | es ransooo0  [uesso | [onoono 
porosa ooroons posee [woseme [emos | [onoono 
porosa fioro powers [sess | oa o [onoono 


CT rE  Qwoseomr —  [wurme — wmm  — secre 
CT] as  [uossees — [wwe | za fi [oseer 
wrosse[wosomz puero [unes — fraoosooos | [one 
era az uos: [aoao0ne — fraoszoooa o  [omoom 
eres [seem are 7 [uae | o mer 


图 7-28 
现在 来 看 看 ， 我 们 是 否 能 够 只 使 用 价格 的 历史 来 成 功 地 预测 第 二 天 的 价格 。 我 们 先 从 
计算 所 获得 的 信号 量 点 数 开 始 ， 如 下 所 示 。 


(t£2[tf£2['Signal']--1]['Next Day Close'] - tf2[tf2['Signal']--1]['Next Day 
Open']).sum() 


上 述 代码 生成 图 7-29 的 输出 。 

目前 为 止 看 上 去 不 太 妙 。 但 是 ， 和 被 测试 的 时 期 有 关 吗 ? 我 们 从 不 独立 地 评估 模型 。 
在 最 近 的 1,000 天 中 ， 基 本 的 盘 中 策略 生成 了 有 多 少 点 ? 

(sp['Close'] .iloc[-1000:] - sp['Open'].il1oc[-1000:]).sum() 


上 述 代 人 码 生 成 图 7-30 的 输出 。 
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1.989974000000018 
图 7-29 图 7-30 


因此 ， 看 起 来 我 们 的 新 策略 失败 了 ， 甚 至 没有 比 过 基本 的 盘 中 来 入 策略 。 让 我 们 拿 到 
完整 的 统计 数据 来 比较 两 者 。 
自 完 ， 这 上 段 时 期 的 基本 盘 中 集 略 统计 如 下 。 


get stats((sp['Close'].iloc[-1000:] - 
sp['Open'].iloc[-1000:])/sp['Open'].iloc[-1000:] * 100) 


上 述 代码 生成 图 7-31 的 输出 。 
现在 ， 我 们 模型 的 结果 如 下 。 
get stats(tf2['PnL']) 


上 述 代 码 生 成 图 7-32 的 输出 。 














交易 次 数 : 1000 
2: RAI 254 
次 数 : 546 d 
亏损 次 数 : 448 亏损 次 数 : 222 
EG: 6 Wd: 524 
便利 /亏损 比例 1.219 便利 /亏损 比例 1 .144 
RAFE: 0.458 便利 的 平均 值 ; 0.468 
亏损 的 平均 值 ; -0.512 亏损 的 平均 值 ; -0.523 
平均 收益 0 .021 平均 收益 0 .003 
标准 差 : 0.656 标准 差 : 0.453 
最 大 亏损 : -4.175 最 大 亏损 : -2.135 
ROBA: 2.756 最 大 盈利 : 2.756 
夏普 比率 : 0.5016 夏普 比率 : 0.0957 
图 7-31 图 7-32 
这 看 起 来 很 糟糕 。 如 果 我 们 修改 交易 策略 怎么 样 ? 如 果 只 有 在 预测 值 比 开盘 值 高 出 一 
定 的 程度 之 上 ， 才 进行 买 入 交易 ， 那 义 会 怎么 样 ? 这 样 做 有 帮助 吗 ? 让 我 们 斌 试看。 我 们 


将 使 用 修改 的 信号 量 重 新 运行 集 上 略 如 下 。 


def get signal(r): 
if r['Predicted Next Close'] > r['Next Day Open'] + 1: 
return 1 
else: 
return 0 
def get ret(r): 
if r['Signal'] -- 
return ((r['Next Day Close'] - r['Next Day Open'])/r['Next 
Day Open']) * 100 
else: 
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return 0 
tf2 = tf2.assign(Signal = tf2.apply(get signal, axis-1)) 


tf2 = tf2.assign(PnL = tf2.apply(get ret, axis-1)) 


(t£2[tf£2['Signal']--1]['Next Day Close'] - tf2[tf2['Signal']--1]['Next Day 
Open']).sum() 


上 述 代 码 生 成 图 7-33 的 输出 。 
现在 的 统计 如 下 。 
get stats(tf2['PnL']) 


上 述 代 码 生 成 图 7-34 的 输出 。 


交易 次 数 : 1000 
便利 次 数 : 50 
亏损 次 数 52 
僵 亏 平衡 次 数 : 898 
熏 利 /亏损 比例 0.962 


恒利 的 平均 值 : 0.586 
亏损 的 平均 值 ; -0.676 
平均 收益 -0.006 
标准 差 : 0.256 
最 大 亏损 : -1.966 
RAAF]: 2.756 
夏普 比率 : -0.3636 





-12.610090000000127 


图 7-33 图 7-34 

我 们 已 经 从 粳 糕 到 更 糟 糙 了 了 。 看 来 ， 如 果 过 去 的 价格 历史 表明 好 事 要 来 临 了 了， 你 可 以 
做 恰恰 相反 的 了 预期。 我们 似乎 已 经 使 用 这 个 模型 开发 了 一 个 记 回 的 指标 。 如 果 我 们 继续 探 
索 会 怎样 ?让 我 们 看 看 如 果 翻 转 这 个 模型 ， 收 和 益 会 是 什么 样子 ， 也 就 是 说 当 模 型 预测 强劲 
的 收益 时 ， 我 们 不 交易 ， 相 反 ， 当 模型 预测 亏损 时 ， 我 们 反而 进行 交易 ， 具 体 如 下 。 























def get signal(r): 
if r['Predicted Next Close'] > r['Next Day Open'] + 1: 
return O0 
else: 
return 1 
def get ret(r): 
if r['Signal'] -- 
return ((r['Next Day Close'] - r['Next Day Open']) /r['Next Day Open']) * 
100 
else: 
return 0 
tf2 = tf2.assign(Signal = tf2.apply(get signal, axis-1)) 
tf2 = tf2.assign(PnL = tf2.apply(get ret, axis-1)) 


(t£2[tf£2['Signal']--1]['Next Day Close'] - tf2[tf2['Signal']--1]['Next Day 
Open']).sum() 
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上 述 代码 生成 图 7-35 的 输出 。 
让 我 们 获取 统计 数据 。 
get stats(tf2['PnL']) 
这 将 输出 图 7-36 的 结果 。 


交易 次 数 ; 999 
三 利 次 数 ; 495 
亏损 次 数 : 396 
重 气 平衡 次 数 : 108 
盘 利 /亏损 比例 1L .25 
恒利 的 平均 值 : 0.446 


亏损 的 平均 值 ; -0.491 
平均 收益 0 , 026 


标准 差 ， 0.605 
最 大 亏损 4 -4.175 
FAKA AJ: 1.969 


42.900288000000415 夏普 比率 : 0.6938 





7-35 图 7-36 


看 起 来 我 们 确实 拥有 一 个 逆 问 指标 。 当 我 们 的 模型 预测 下 一 交易 日 会 有 收益 的 时 候 ， 
市 场 表 现 明 显 不 佳 〈 至 少 在 我 们 的 测试 期 间 内 )。 在 大 多 数 情 况 下 这 是 含 都 成 立 ? 不 见得 。 
市 场 倾 癌 于 从 逆转 的 体系 转变 到 趋势 持续 的 体系 。 让 我 们 在 不 同 的 时 期 ， 重 狐 运 行 便 型 来 


进一步 测试 它 。 





X train = sp20[:-2000] 

y train = sp20['Close'].shift(-1)[:-2000] 

X test sp20[-2000:-1000] 

y test sp20['Close'].shift(-1)[-2000:-1000] 
model = clf.fit(X train, y train) 


preds = model.predict(X test) 
tf = pd.DataFrame(list(zip(y test, preds)), columns-['Next Day Close', 
'Predicted Next Close'], index-y test.index) 


cdc = sp[['Close']].iloc[-2000:-1000] 
ndo = sp[['Open']].iloc[-2000:-1000].shift(-1) 
tfl = pd.merge(tf, cdc, left index-True, right index-True) 


tf2 = pd.merge(tfl, ndo, left index-True, right index-True) 
tf2.columns - ['Next Day Close', 'Predicted Next Close', 'Current Day 
Close', 'Next Day Open'] 
def get signal(r): 
if r['Predicted Next Close'] > r['Next Day Open'] + 1: 
return O0 
else: 
return 1 
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def get ret(r): 
if r['Signal'] -- 1: 
return ((r['Next Day Close'] - r['Next Day Open'])/r['Next 
Day Open']) * 100 
else: 
return O0 
tf2 = tf2.assign(Signal = tf2.apply(get signal, axis-1)) 
tf2 = tf2.assign(PnL = tf2.apply(get ret, axis-1)) 
(t£2[tf£2['Signal']--1]['Next Day Close'] - tf2[tf2['Signal']--1]['Next Day 
Open']).sum() 


上 述 代码 生成 图 7-37 的 输出 。 

因 些 ,我们 可 以 看 到 ， 新 的 模型 和 新 的 测试 时 间 段 返回 的 分 数 超 过 了 33 点 。 让 我 们 将 
结果 与 相同 时 间 段 的 盘 中 人 策略 进行 比较 。 

(sp['Close'].iloc[-2000:-1000] - sp['Open'].iloc[-2000:-1000]).sum() 


这 将 产生 图 7-38 的 输出 。 


33 .60002899999989 |-7.089998000000051 
图 7-37 图 7-38 


因此 ， 在 新 的 测试 时 段 中 ， 我 们 的 逆 同 模型 似乎 表现 出 明显 的 优势 。 


到 了 现 阶段 ， 我 们 还 可 以 对 这 个 模型 做 一 些 扩 展 。 我 们 甚至 还 没有 开始 使 用 技术 指标 
Re 而 且 我 们 将 交易 限制 在 一 天 。 所 有 这 些 都 可 以 进行 调整 和 扩展 。 
然而 ， 这 里 我 想 介 绍 另 一 个 使 用 完全 不 同 算法 的 模型 。 该 算法 称 为 动态 时 间 规 整 Cdynamic 
time Perd 它 所 做 的 事情 是 同 你 提供 一 个 表示 两 个 时 间 序 列 之 则 相似 性 的 度量 。 


7.3.3 建 模 与 动态 时 间 扭 曲 
开始 之 前 ， 我 们 需要 从 命令 行使 用 pip 安装 fastdtw FE, fij 4€ pip install fastdtw. 


完成 后 ， 我 们 将 导入 需要 的 附加 库 ， 如 下 所 示 。 


from scipy.spatial.distance import euclidean 














from fastdtw import fastdtw 


Be BOR. JEJIRGUEE ERG VAERSCEEBESE PATTY 90 F3R [BP 1112 TRO S] RB S < 


def dtw dist(x, y): 
distance, path = fastdtw(x, y, dist-zeuclidean) 
return distance 
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现在 ， 我 们 将 16 年 的 时 间 序 列 数据 分 成 不 同 的 期 间 ， 每 个 期 间 长 度 为 5 天 。 我 们 为 每 
个 期 间 配 上 一 个 附加 的 点 。 这 将 用 于 创建 我 们 的 x 和 y 数据 ， 其 体 如 下 。 

tseries = [] 

tlen = 5 

for i in range(tlen, len(sp), tlen): 

pctc - sp['Close'].iloc[i-tlen:i].pct change()[1:].values * 100 

res = sp['Close'].iloc[i-tlen:i*l].pct change()[-1] * 100 

tseries.append((pctc, res)) 


我 们 可 以 看 看 第 一 个 序列 ， 了 解数 据 的 样子 。 
tseries[0] 
上 上述 代码 生成 图 7-39 的 输出 。 


(array([-3.91061453, 0.17889088, -1.60714286, 5.8076225 ]), 
0.34305317324185847) 








现在 有 了 每 个 序列 ， 我 们 就 可 以 通过 算法 运行 它们 ， 来 获得 每 个 序列 相对 于 其 他 序列 
的 距离 度量 。 

dist pairs = [] 

for i in range(len(tseries)): 

for j in range(len(tseries)): 

dist = dtw dist(tseries[i1][0], tseries[j][0]1) 
dist pairs.append((i,j,dist,tseries[i][1], tseries[j1I[11)) 

— H3 V8 fixe, un DLYXREJGSUON—^7h8 DataFrame 对 象 。 我 们 将 删除 相互 距离 为 
零 的 序列 ， 因 为 它们 代表 了 相同 的 序列 。 我 们 还 会 根据 序列 的 日 期 进行 排序 ， 只 观测 第 一 
个 序列 在 时 间 上 排 第 二 个 序列 之 前 的 那些 

dist frame = pd.DataFrame(dist pairs, columns-['A','B','Dist', 'A Ret', 'B 

Ret']) 

sf = 

dist frame[dist frame['Dist']»50].sort values(['A','B']).reset index (drop-1) 

sfe = sf[sf['A']«s£['B']] 


最 后 ， 我 们 将 交易 限制 到 相互 距离 小 于 1， 而 第 一 个 序列 的 回报 为 正 的 情况 


winf = sfe[(sfe['Dist']«-1)&(sfe['A Ret']»0)] 
winf 


上 述 代 码 生 成 图 7-40 的 输出 。 
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让 我 们 看 看 排名 靠 前 的 模式 ， 在 绘制 后 是 什么 样子 。 
pit.plot(np.arange(4), tseries[6][0]) 


上 述 代 人 码 生 成 图 7-41 的 输出 。 











0.0 


—1.0 


-1.5 


0.0 0.5 10 15 20 25 
图 7-41 
现在 ， 我 们 将 绘制 第 二 个 。 
pit.plot(np.arange(4), tseries[598][0]) 


上 面 的 代码 将 生成 图 7-42. 的 输出 。 


3.0 
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0.0 


-2.0 


0.0 0.5 10 15 20 25 3.0 
图 7-42 
从 图 7-41 和 图 7-42 中 可 以 看 出 ， 曲 线 几 乎 相同 ， 这 正 古 我 们 想 要 的 。 我 们 打算 尝试 
找到 所 有 在 第 二 天 获得 正 收 和 益 的 曲线 。 然 后 ， 一 旦 我 们 发 现 某 个 曲线 与 这 些 有 利 可 图 的 曲 
线 之 一 非 第 相似 ， 我 们 融会 买 入 ， 以 期 符 另 一 次 熏 利 。 
现在 构造 一 个 函数 来 评估 我 们 的 交易 。 对 于 相似 的 历史 曲线 ， 只 要 能 返回 正 回 的 熏 利 ， 
我 们 束 会 买 入 。 如 果 发 生 无 法 鳃 利 的 情况 ， 我 们 将 删除 它们 。 


excluded = {} 


return list = [] 











def get returns (r): 

if excluded.get(r['A']) is None: 

return list.append(r['B Ret']) 

if r['B Ret'] « O: 

excluded.update((r['A']:1)) 

winf.apply(get returns, axis-1); 
现在 所 有 交易 的 回报 都 存储 于 return 1ist， 让 我 们 评估 最 终 的 结果 。 
get stats (pd.Series (return list)) 


上 述 代码 生 成 图 7-43 的 输出 。 

这 些 结果 是 迄今 为 止 我 们 看 到 的 最 好 结果 。 人 有 盘 利 /亏损 比例 和 平均 值 远 高 出 其 他 的 模 
型 。 看 来 ， 这 个 新 模型 可 能 行 得 通 ， 特 别 是 与 之 前 的 模型 相 比 。 

现在 ， 为 了 进一步 检视 该 模型 ， 我 们 应 该 通过 其 他 的 时 间 段 来 探索 其 鲁 棒 性 。 周 期 超 
过 四 天 是 否 会 改善 模型 ? 我 们 是 否 应 该 总 是 排除 产生 亏损 的 模式 ?还 有 很 多 额外 的 问题 可 
以 探索 ， 但 我 会 将 它 作为 练习 留 给 读者 。 如 果 你 确实 使 用 了 这 些 技术 ， 就 知道 我 们 只 是 小 
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尝 力 止 ， 还 需要 更 多 和 额外 的 周期 测试 ， 以 适当 地 检验 这 些 模型 。 


交易 次 数 : 569 
价 利 次 数 : 352 
亏损 次 数 : 217 
前 亏 平 衡 次 数 : 0 
前 利 / 亏 损 比 例 1.622 
恒利 的 平均 值 : 0.572 
亏损 的 平均 值 : -0.646 








平均 收益 0 .108 
标准 差 : 0.818 
最 大 亏损 : -2.999 
ROUGE: 3.454 
夏普 比率 ; 2.0877 
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在 这 一 章 中 ， 我 们 研究 了 股市 。 我 们 学 会 了 如 何 使 用 机 右 学 习 来 制定 交易 策略。 我们 
使 用 支持 问 量 回归 构建 了 第 一 个 策略 ， 使 用 动态 时 间 规 整 构建 了 第 二 个 策略 。 

坚 无 疑问 ， 本 章 的 内 容 本 里 就 可 以 写 一 本 书 。 交 易 束 略 中 许多 最 草 要 的 模块 ， 我 们 其 
至 都 没有 涵盖 。 这 些 包括 投资 组 合 建设 、 风 险 绥 释 和 资金 管理 。 对 于 任何 真正 的 策略 而 言 ， 
这 些 者 是 最 根本 的 一 -可 能 比 区 易 信 号 更 为 重要 。 

布 户 这 将 成 为 你 目 己 探索 的 起 上 后。 但 是 ， 我 需要 再 次 提醒 你 ,“ 战 胜 市 场 ” 是 一 项 几乎 
EE 完成 的 任务 。 在 这 个 市 场 中 ， 你 将 与 世界 上 最 聪明 的 人 们 苋 搜 。 如 来 你 决定 竹 试 ， 
































ZEE 
我 祝 你 好 运 。 如 采 结 有 果 不 是 你 想象 的 那样 ， 请 记 住 我 提醒 过 你 ! 
在 下 一 曹 中， 我 们 将 讨论 如 何 构建 一 个 计算 疼 像 相似 度 的 引擎 。 
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建立 图 像 相似 度 的 引擎 








在 我 们 的 旅程 中 ， 到 目前 为 止 已 丝 和 数字 以 及 文本 打 了 很 多 交道 。 在 本 章 中 ， 我 们 将 
进入 图 像 的 世界 。 虽 然 看 上 去 这 似乎 需要 一 些 更 局 级 的 法 术 ， 但 是 我 可 以 同 你 保证 ， 将 图 
像 转换 为 机 天 可 读 的 格式 和 转换 文本 一 样 简 单 。 


我 们 将 从 图 像 机 器 学 习 的 “hello world” 开 始 : 数字 的 识别 。 不 过 ， 到 本 章 结 束 时 ， 我 
们 将 构建 一 个 高 级 的 、 基 于 图 像 的 深度 学 习 应 用 。 要 达到 怎样 的 境界 ， 我 们 才能 建立 这 个 
高 级 应 用 ? 当然 ， 这 就 是 为 什么 要 寻找 我 们 的 灵 曾 U! 

我 们 还 将 花费 相当 多 的 时 间 来 讨论 深度 学习 算法 ， 并 理解 为 什么 它们 是 如 此 重要 ， 为 
什么 大 家 都 在 热 议 它们 。 

本 章 将 讨论 以 下 主题 。 

e。 图 像 的 机 器 学 习 。 

e 处 理 网 像 。 

e 奉 找 相 似 的 图 像 。 

e 理 解 深 度 学 习 。 


eT e ERAHTUUS E. 























(D 译 者 注 : 灵 兽 或 者 精神 动物 ， 指 对 于 每 个 人 的 糊 神 而 言 ， 都 有 一 种 动物 的 天 性 与 其 对 应 ， 有 些 人 相信 找到 目 
己 的 天 性 可 以 增强 和 发 展 目 我 。 
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8.1 图 像 的 机 器 学 习 


尽管 有 天文 本 和 数 信 型 数据 的 机 画 学 习 应 用 是 讨论 得 最 多 的 ， 还 有 大 量 的 关 似 应 用 是 
关于 图 像 的 。 其 中 许多 集中 在 上 共有 深远 影响 的 前 沿 研 究 领 域 。 

如 今 ， 我 们 习惯 于 运行 Google 搜 索 ， 从 三 个 星期 前 阅读 的 一 个 新 闻 故 事 来 找到 一 些 奇怪 
的 文本 厂 段 ， 并 将 第 一 项 作为 期 每 的 结果 。 现 在 ， 想 象 一 下 ， 如 有 果 我 们 能 够 对 图 片 、 电 影 和 
GIF 动 图 做 同样 的 事情 ， 那 会 怎样 ? 例如， 让 我 们 假设 你 在 六 个 月 前 看 到 一 个 GIF， 它 是 完 
适合 你 当前 的 Slack” 聊天， 但 你 所 能 记 住 的 只 是 它 有 一 只 美洲 驼 ， 而 一 个 男子 试图 喂 它 。 现 
人 在， 你 很 难 找到 这 张 动 图 ， 因 为 大 多 数 图 片 搜索 圾 要 利用 标签 和 图 像 周 围 的 文本 。 然 而 在 过 
去 几 年 中 ， 像 Google 这 样 的 公司 ， 在 机 各 为 图 像 内 容 打 标签 的 方面 取得 了 惊人 的 进步 。 当 这 
项 研究 完全 公布 于 众 让 大 家 都 来 使 用 ， 它 会 从 根本 上 改变 我 们 搜索 图 像 的 方式 。 

1E Google Research 的 这 篇 博 X. ip 
( http://googleresearch.blogspot.com/2014/11/a-picture-is-worth-th 
ousand-coherent .htm1l)， 他 们 搞 述 了 实现 这 一 目标 的 进展 ， 并 前述 了 完成 它 的 一 些 技 
术 挑 战 。 例 如 ， 在 图 8-1 中 ， 可 以 看 到 炉子 上 有 两 个 比萨 饼 。 


inel. - 
C 

















图 8-1 


为 了 像 这 样 标记 图 像 ， 不 仅 需 要 理解 每 个 对 象 ， 还 需要 理解 它们 之 间 的 关系 。 即 使 那 
样 ， 标 签 还 需要 与 目 然 语言 的 短语 罗 配 一 一 也 就 是 匹配 人 类 的 接 述 。 例 如 ， 即 使 在 技术 上 











(时 下 非常 流行 的 一 种 企业 聊天 工具 ， 包 括 了 聊天 群 组 、 大 规模 工具 集成 、 文 件 整 合 、 统 一 搜索 等 功能 。 
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是正 硝 的 ， 一 个 人 也 永远 不 会 将 这 张 图 标注 为 “在 两 个 彼此 相 邻 的 比 芒 饼 之 下 的 烤箱 ”。 

图 像 机 如 学 习 的 男 一 种 应 用 是 人 脸 识 别 。 你 可 能 看 过 最 近 的 新 闻 讨 论 了 Facebook 的 
DeepFace 拉 术 。 据 报道 ， 这 个 应 用 程序 是 如 此 的 先进 ， 即 使 图 像 是 人 们 的 后 脑 勺 ， 它 也 可 
以 识别 东 个 人 一 一 而 且 它 识别 的 准确 度 近 了 乎 完美 。 

虽然 这 似乎 对 整个 社会 有 可 怕 的 影响 ， 但 是 对 于 Facebook 而 言 ， 这 是 价值 连城 的 技术 。 
一 旦 东 个 人 在 单 张 照片 中 被 加 注 了 标签 ， 那 么 不 再 需要 其 他 附加 的 标签 一 一 未 来 所 有 的 照 
瞩 的 标注 都 是 目 动 进行 的 。 

应 该 指出 这 是 一 项 艰巨 的 任务 。 一 个 人 头 及 、 服 饰 、 年 龄 的 改变 一 -更 别 提 每 张 照 三 
中 不 同 的 担 摄 角度 和 光线 一 一 都 使 得 这 项 任务 变 得 极 具 挑 战 性 ， 甚 至 对 人 关 也 古 如 此 。 事 
实 上 ， 就 像 计算 机 已 经 开始 在 游戏 中 《〈 如 Alpha Go) 超越 和 类， 它们 也 开始 在 这 种 识别 任 
务 中 赶 超 我 们 。 


这 种 新 的 机 絮 目 我 掌控 水 平 来 日 于 相对 较 新 的 一 类 算法 ， 其 术语 是 “ 深 破 和 学习” 本草 
和 后 将 仔细 探讨 深度 竺 习 ， 让 你 可 以 理解 它 与 其 他 算法 的 不 同 之 处 ， 以 及 为 什么 它 古 如 此 
的 成 功 。 然 而 ， 现 在 我 们 将 从 头 开 始 ， 先 来 了 解 一 下 处 理 图 像 的 基础 知识 。 


8. 2 处 理 图 像 









































当 我 们 第 一 次 介绍 目 然 语言 处 理 时 ， 你 理解 了 需要 执行 未 种 变换 ， 才 能 以 数字 的 方式 
表示 文字 。 我 们 通过 创建 词 条 -文档 的 卸 阵 做 到 了 这 点 。 如 今 我 们 正在 处 理 图 片 ， 需 要 执行 
为 一 种 变换 ， 然 后 用 数字 形式 呈现 图 像 。 

让 我 们 来 看 看 图 8-2 中 的 几 个 手写 数字 。 

这 些 特定 数字 取 目 MNIST 的 手写 数字 数据 库 〈 征 的 ， 这 些 都 
是 其 实 的 手写 )。 这 个 数据 库 包含 数 万 个 像 这 样 的 数字 ， 采 集 目 糯 
国人 口 普 查 局 员工 和 高 中 生 的 手写 样本 。 8-2 

假设 现在 我 们 想 使 用 机 带 学 习 来 识 列 这 些 数 季 。 我 们 如 何 使 用 数 子 来 表示 这 些 手写 体 ? 


一 种 方法 可 能 是 将 图 像 中 的 每 个 像 妹 映射 到 相同 大 小 的 数字 和 窍 阵 中 。 然 后 ， 我 们 可 以 
通过 窍 阵 中 的 值 来 表示 该 像 系 的 一 些 属性 。 实 际 上 ， 这 正 是 人 们 处 理 的 方法 。 

每 个 数字 图 像 都 家 缩放 并 且 居 中 定位 到 给 定 大 小 的 男 布 上 (28 像素 x28 像素 或 64 像素 
x64 BR), 然后 每 个 像素 的 颜色 强度 在 矩阵 中 被 表示 为 0 到 1 之 间 的 值 , 其 中 1 是 纯 黑 色 ， 
0 是 纯 白 色 。 此 过 程 称 为 灰 度 缩放 。 
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有 了 这 个 简单 的 方法 ， 我 们 将 一 个 真实 世界 中 的 “事物 ” 变 成 一 个 数字 化 的 表示 ， 该 
表示 可 以 用 于 我 们 的 机 和 硕 学 习 算 法 中 。 


下 面 来 看 个 例子 。 我 们 将 MNIST 数据 库 加 载 到 scikit-learn. 


from sklearn import datasets 
import matplotlib.pyplot as plt 
import numpy as np 
$Smatplotlib inline 
digits = datasets.load digits() 
def display img(img no): 
fig, ax = plt.subplots() 
ax.set xticklabels([]l) 
ax.set yticklabels([]l) 
ax.matshow(digits.images[img no], cmap - plt.cm.binary); 
display img(0) 


上 述 代 码 生 成 图 8-3 的 输出 。 

在 上 面 的 代码 中 ， 我 们 加 载 了 必要 的 包 ， 人 然后 是 数字 数据 集 ， 
最 后 ， 我 们 使 用 matplotlib 展示 了 第 一 个 数字 。 这 是 一 个 粗略 
的 表示 ， 因 为 它 被 缩小 到 了 8x8， 或 总 共 64 个 像素 。 运 行 以 下 命令 ， 
可 以 看 到 实际 的 窍 阵 表示 。 


digits.images[0] 


上 述 代 人 码 生 成 图 8-4 的 输出 。 
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这 些 特定 的 数字 在 0 和 16 之 间 缩 放 ,， 但 可 以 看 到 , 它们 和 图 像 中 每 个 像素 的 羚 色 强度 
是 相互 关联 的 。 如 果 在 算法 中 应 用 这 些 ， 我 们 需要 将 8x8 的 矩阵 展开 为 长 度 64 的 单个 同 量 。 
如 下 上 所 示 。 


digits.data[0].shape 


上 述 代 人 码 生 成 图 8-5 的 输出 。 
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然后 这 将 成 为 我 们 训练 集中 的 一 行 一 -也 融 是 特征 癌 量 。 使 用 以 下 命令 ， 我 们 也 可 以 
看 到 和 数据 相关 联 的 标签。 
digits.target[0] 


上 述 代 人 码 生 成 图 8-6 的 输出 。 


(64,) 0. 
图 8-5 图 8-6 


现在 我 们 准备 融 绪 ， 可 以 将 这 个 图 像 数 据 和 输入 算法 了 。 


到 目前 为 止 ， 我们 只 讨论 了 如 何 使 用 黑 日 图像， 不 过 令 人 惊讶 的 是 ， 处 理 彩色 图 片 也 
征 一 样 的 简单 。 每 个 像 系 可 以 使 用 三 个 特征 来 表示 ， 每 个 RGB 值 对 应 一 个 特征 。 或 者 ， 如 
末 倾 问 于 保留 单个 特征 ， 那 么 可 以 取 三 个 RGB 值 的 平均 值 。 


现在 我 们 已 经 将 图 像 转 换 成 机 和 硕 可 以 处 理 的 表示 ， 接 下 来 看 看 我 们 可 以 使 用 哪些 算法 。 


8.3 查找 相似 的 图 像 























通常 ，MNIST 的 数字 数据 库 是 用 于 分 类 任务 ， 即 给 定 手写 数字 ， 找 到 它 对 应 的 目标 标 
签 。 这 里 ， 我 们 将 以 不 同 的 方式 使 用 它 。 对 于 一 张 给 定 的 图 像 ， 我 们 将 尝试 在 数据 集中 ， 
找到 与 它 最 相似 的 另外 一 张 图 像 。 这 是 一 个 无 监督 学 习 的 任务 ， 而 不 是 一 个 监督 学 习 的 任 
务 ， 因 为 我 们 不 会 使 用 标签 进行 训练 

本 书 之 前 介绍 过 一 个 处 理 文本 特征 的 算法 ， 我 们 将 从 这 个 算法 开始 。 该 算法 是 余弦 相 
似 性 。 回 想 一 下 ， 这 个 算法 计算 疱 矩阵 中 每 一 行 的 单位 向 量 。 每 行 和 其 他 的 行进 行 点 乘 ， 
为 我 们 提供 每 对 向 量 之 间 的 余弦 夹 角 。 最 终 的 结果 是 ， 我 们 拥有 了 一 个 单独 的 指标 ， 它 千 
诉 我 们 两 张 图 片 有 多 么 的 “接近 ”。 现 在 来 看 看 具体 如 何 操作 。 

首先 ， 我 们 将 导入 需要 的 库 。 


import pandas as pd 





























from sklearn.metrics.pairwise import cosine similarity 


然后 ， 我 们 将 计算 第 一 个 图 像 “索引 号 为 0) 和 所 有 其 他 图 像 之 间 的 相似 度 。 


X = digits.data 
co sim = cosine similarity(X[0].reshape(1,-1), X) 


当 我 们 输入 一 维 数组 时 ，scikit-learn 需要 我 们 重 塑 数组 。 
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最 后 ， 我 们 将 结果 放 在 一 个 pandas 的 DataFrame 对 象 中 ， 并 奉 看 该 结 末 。 


cosf = pd.DataFrame(co sim).T 


cosf.columns - ['similarity'] 
cosf.sort values('similarity', ascending-False) 


这 将 产生 图 8-7 的 输出 。 
我 们 可 以 看 到 第 一 行 的 值 是 1 一 一 一 个 完美 的 相似 度 一 一 因为 这 是 我 们 的 原 图 。 下面 是 
按照 相似 度 排序 的 所 有 其 他 图 像 。 下 和 耐看 看 编写 877 的 图 像 。 我 们 将 使 用 之 前 创建 的 函数 


来 显示 它 。 


display img(877) 





这 将 产生 图 8-8 的 输出 。 


图 8-7 图 8-8 
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可 以 看 出 ， 这 个 图 像 也 是 一 个 0， 表 明 我 们 在 正确 的 轨道 上 前 进 。 让 我 们 并 排 对 比 编 
号 0 的 图 像 与 编号 877 的 图 像 ， 如 图 8-9 所 示 。 


我 们 可 以 看 到 ， 这 两 个 和 零 是 非 第 相似 的 。 我 打赌 他 们 是 由 同一 个 人 书写 的 。 
现在 ， 让 我 们 做 点 有 趣 的 事 悄 。 和 0 差异 最 大 的 是 什么 呢 ? 下 面 来 看 看 。 节 不 相似 的 


图 像 是 编号 1626. 








display img (1626) 
这 将 产生 图 8-10 的 输出 。 
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8-9 图 8-10 


令 人 震惊 的 是 ， 我 们 刚刚 确认 了 二 进 制 编码 。 与 1 相反 的 是 ， 事 实 上 ， 就 是 一 个 0， 
哈哈 ! 

让 我 们 来 看 看 在 图 像 机 器 学 习 应 用 中 经 常 采纳 的 另 一 种 算法 。 它 被 称 为 卡 方 核 
(chi-squared kernel)， 和 余弦 相似 度 计 算 类 似 ， 它 将 给 出 一 个 标量 值 ， 告 诉 我 们 两 个 问 量 之 
间 的 相似 度 ， 如 图 8-11 所 示 。 

让 我 们 来 看 看 卡 方 核 的 相似 度 和 之 前 运行 的 余弦 相似 度 ， 这 两 者 相 比 较 如 何 。 


from sklearn.metrics.pairwise import chi2 kernel 
k sim = chi2 kernel(X[0].reshape(1,-1), X) 

kf = pd.DataFrame(k sim).T 

kf.columns - ['similarity'] 














kf.sort values('similarity', ascending-False) 


上 述 代 人 码 生 成 图 8-12 的 输出 。 





8-11 图 8-12 
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里 然 顺 序 与 余弦 相似 度 的 结果 有 些 不 同 ， 但 排名 菲 前 的 值 大 多 数 都 是 相同 。 

让 我 们 来 看 看 卡 方 核 测量 出 来 的 最 相似 图 像 。 

display img(1167) 

这 将 产生 图 8-13 的 输出 。 

再 次 ， 我 们 找到 一 个 与 原 图 非常 相似 的 0。 

为 什么 要 在 两 者 (余弦 相似 度 与 卡 方 核 ) 中 选择 一 个 ? 
你 可 以 使 用 任何 一 个 并 得 到 相似 上 度 的 结果 一 一 如 我 们 已 经 看 
到 的 那样 一 一 余弦 相似 上 度 已 经 被 证 明 是 自然 语言 处 理工 作 的 
首选 ， 而 卡 方 核 是 处 理 图 像 任务 的 直接 选择 。 图 8-13 

到 现在 为 止 ， 你 有 理由 怀疑 我 们 怎么 可 能 通过 仅 含 一 位 数字 的 微小 黑 框 和 白 框 ， 就 确 
定 图 像 是 比 陀 饼 还 是 猴子 ， 或 者 摩托 车 什么 的 。 根 据 我 们 目前 所 做 的 ， 似 乎 还 不 能 收集 足 
够 的 信息 来 辨别 图 片 是 什么 。 事 实 上 ， 这 是 也 是 真 的 。 

只 使 用 字母 的 计数 ， 我 们 几乎 不 可 能 区 分 《日 钱 记 》 和 《傲慢 与 偏见 》。 同 样 的 道理 ， 
我 们 需要 添加 另外 一 层 抽象 来 状 列 图 像 。 对 于 文本 而 言 ， 这 意味 看 使 用 单词 和 单词 的 组 合 ， 
而 对 于 视觉 信息 ， 类 似 地 ， 我 们 使 用 像素 的 聚集 。 这 些 像素 的 聚集 形成 所 谓 的 视觉 词 汇 ， 
这 种 方法 被 称 为 视觉 词 包 一 Dag of visual words。 之 所 以 选择 了 这 样 的 术语 ， 是 因 
为 文本 处 理 使 用 了 词 包 一 bag of words 一 一 并 忽略 了 单词 之 间 的 顺序 ， 而 视 党 词 包 使 
用 了 同样 的 方式 ， 忽 略 了 视觉 词汇 的 空间 顺序 。 

现在 ， 为 了 进一步 说 明 视 党 词 包 的 过 程 ， 让 我 们 在 更 高 的 层面 来 理解 这 个 概念 。 因 为 
视觉 词 包 的 起 源 来 目 纹 理 识别 ， 我 们 将 使 用 网 8-14 的 的 例子 。 
































图 8-14 


这 里 ， 我 们 有 三 种 不 同 的 纹理 。 每 个 包括 一 系列 重复 的 纹理 单元 ， 这 些 单 元 被 称 为 
textrons。 这 些 形成 了 视 党 词汇 的 基础 ， 如 图 8-15 所 示 。 
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图 8-15 


然后 ， 每 个 样本 可 以 表示 为 这 些 特征 上 的 直方 图 ， 如 
图 8-16 所 示 。 

正如 我 们 在 图 8-16 所 看 到 的 ， 这 些 可 以 和 词 包 中 文 
档 针 对 单词 的 直方 图 进行 类 比 。 

现在 ,我 应 该 指出 ， 这 种 描述 主要 是 概念 性 的 。 涉 及 
视觉 词 包 的 实现 时 ， 存 在 更 多 的 事项 。 完整 的 细节 超出 了 
本 书 的 讨论 范围 , 不 过 其 中 一 些 工 作 应 该 包括 选择 兴趣 点 
作为 视觉 词汇 ， 以 及 使 特征 尺度 不 变 的 规范 化 。 

一 旦 完成 预 处 理 ,， 就 像 文 本 处 理 那 样 , 我 们 要 计算 相 
似 度 窍 阵 ， 然 后 将 数据 输入 分 类 算法 。 再 次 ， 像 文本 处 理 
那样 ， 算 法 通常 是 SVM. 


8.4 了 解 深 度 学 习 
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虽然 视觉 词 包 方 法 的 表现 令 人 印象 深刻 ， 但 是 最 近 ， 利 用 所 谓 深 度 学 习 的 新 方法 已 然 
出 现 。 深 度 学 习 为 人 工 智 能 领域 带 来 了 新 的 生机 ， 因 为 它 不 断 地 在 提升 我 们 的 基准 线 。 本 
章 稍 后 ， 我 们 将 在 图 像 相 似 度 引 擎 中 使 用 深度 学 习 ， 不 过 ， 首 先 我 们 将 介绍 究竟 什么 是 深 
度 学 习 ， 以 及 为 什么 它 是 如 此 重要 的 突破 。 

深度 学 习 源 于 已 经 存在 了 几 十 年 的 算法 。 这 些 算法 ， 称 为 感知 器 ， 对 人 类 大 脑 中 的 神 
经 元 进行 建 模 。 

在 参加 生物 学 课程 时 ， 你 可 能 已 经 学 习 过 神经 元 是 如 何 工 作 的 。 基 本 的 信息 如 下 。 

e 每 个 神经 元 连接 到 其 他 神经 元 组 成 的 网 络 。 

e 当 神经 元 激发 时 ， 它 将 信号 发 送 到 和 它 连 接 的 神经 元 。 

e 接 收 这 个 信号 的 神经 元 ， 根 据 一 些 已 建立 的 激活 靖 值 ， 或 者 激发 ， 或 者 不 激发 。 

这 是 感知 模型 的 基础 ， 如 图 8-17 所 示 。 

我 们 可 以 将 神经 元 视 为 一 个 单独 的 决策 单元 。 假 设 神经 元 的 任务 是 决定 我 们 是 否 应 该 























196 第 8 章 建立 图 像 相 似 度 的 引擎 


接受 一 个 新 的 工作 机 会 。 在 这 个 场景 中 ， 我 们 的 相关 输入 可 能 是 工作 地 点 、 薪 酬 、 对 未 来 经 
理 的 印象 ， 以 及 办 公 室 环境 等 。 这 种 情况 下 , 我们 有 一 个 二 元 决策 : 1， 接 受 这 份 工作 ,或 0， 
不 接受 。 每 一 项 输入 都 帮助 我 们 确定 是 否 接受 该 工作 ， 但 是 ， 很 显然 ， 它 们 不 会 具有 同样 的 
影响 力 。 例 如 ， 如 果 办 公 室 是 10 分 中 的 满分 ， 但 工资 只 能 拿 到 10 分 中 的 2 分 ， 我 们 很 可 能 
拒绝 这 个 机 会 。 反 之 ， 如 果 办 公 室 是 10 分 中 的 2 分 ， 而 工资 是 10 分 中 的 满分 ， 我 们 很 可 能 
会 接受 它 。 因 此 ， 在 决策 过 程 中 ， 薪 酬 比 办 公 室 的 环境 更 重要 。 在 感知 器 的 语言 中 ， 我 们 
会 说 薪酬 这 个 输入 的 权重 更 高 。 对 所 有 的 输入 一 一 x 变量 一 一 修改 它们 的 权重 一 一 w 变量 ， 
我 们 将 获得 一 个 值 ， 它 会 触发 或 不 触发 我 们 的 函数 。 
从 数学 上 来 讲 ， 我 们 有 图 8-18 的 公式 。 











| 0 if 2 wx, < threshold 
output — | | 


| if 2 wx, > threshold 





图 8-17 图 8-18 


到 目前 为 止 ， 我们 已 经 讨论 了 感知 看 如 何 担当 一 个 决 全 单元 ， 但 是 还 没有 讨论 学 习 是 
如 何 进行 的 。 


为 了 理解 和 学习 的 过 程 ， 让 我 们 试 着 用 感知 右 学 习 一 些 决策 规则 。 

我 们 要 学 习 的 第 一 条 规则 称 为 AND KA AND 也 数 是 像 这 样 工 作 的 : 有 两 个 输入 ， 
当 两 个 输入 都 为 正 时 ， 我 们 希望 函数 输出 1。 如 果 一 个 输入 是 负 的 ， 或 者 两 个 都 是 负 的 ， 
我 们 希望 它 输出 0。 我 们 将 权重 设置 为 0 到 1 之 间 的 随机 数 。 

让 我 们 开始 学 习 的 过 程 。 这 里 Xx 的 输入 等 于 1，Z% 的 输入 等 于 -1。 克 被 随机 设 为 0.8， 
W2 被 随机 设 为 0.2。 因 为 两 者 都 必须 是 正 的 ， 输 出 才 为 1， 所 以 国 值 是 大 于 1 的 任何 值 。 

因此 ， 我 们 有 WixXioWuxXo7J 1x0.8+-1x0.4=0.8-0.4=0.4。 现 在 ， 因 为 我 们 期 
望 输出 为 0， 所 以 说 误 莽 为 0.4。 现 在 我 们 将 尝试 改进 模型 ， 将 这 些 错 
误 推 回 到 输入， 让 其 更 新 权重 。 为 此 ， 我 们 将 使 用 图 8-19 的 公式 轮流 
进行 评估 。 
中 ， 我 们 的 目标 结果 是 0， 实 际 结果 是 0.4。 现 在 忽略 n 项 。 它 是 学 习 率 ， 决 定 了 更 新 幅度 
应 该 有 多 大 或 多 小 。 现 在 ， 我 们 假设 它 补 设置 为 1。 
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让 我 们 看 看 x, 如 何 更 新 它 的 重量 。 因 此 ， 我们 有 1x (0-0.4) x1， 它 等 于 -0.4。 这 是 
w 的 差 值 ， 因 此 ， 更 新 公式 1， 我 们 有 0 .8-0.4， 这 给 出 了 wi 的 新 权重 为 0.4。 因 此 ,x 
的 权重 下 降 。 那 么 x» 的 权重 又 如 何 ? 


让 我 们 来 看 看 。 这 个 是 1x (0-0.4) x (-1), 等 于 0.4。 然 后 , 我们 获得 了 0.2+0.4=0.6， 
以 此 来 更 新 w。 从 此 可 以 看 到 ， 两 个 权重 相互 接近 了 ， 这 正 是 我 们 所 希望 的 。 如 果 给 定 
一 个 足够 小 的 学 习 率 ， 然 后 继续 运行 这 个 过 程 ， 那 么 模型 就 会 收 人 钱 ， 我 们 就 将 学 会 AND 
PR AL. 

虽然 这 个 模型 看 上 去 极其 简单 一 一 没 错 ， 它 也 有 明显 的 局 限 性 〈 例 如 ， 无 法 学 习 XOR 
函数 ) 一 一 但 它 是 当今 深度 学 习 框 架 的 基石 。 人 们 对 这 种 模型 进行 渐进 的 创新 ， 提 高 了 其 
学 习 复 杂 表 达 的 能 力 ， 包 括 结合 S 形 函 数 代 蔡 阶 梯 函 数 、 扒 县 神 经 元 形成 分 层 网 络 ， 以 及 
更 好 的 方法 来 癌 下 层 分 配 错 误 。 

总 之 ， 这 些 更 新 使 得 模型 不 仅 可 以 学 习 非 线性 表示 (学习 KOR 函数 所 必需 的 )， 还 可 
以 学 习 任 何其 他 模式 。 通 过 堆 秋 多 层 的 神经 元 一 一 一 层 的 输出 作为 男 一 层 的 输入 一 一 每 个 
更 高 的 层次 都 能 够 识别 更 复杂 的 数据 表示 。 

在 图 8-20 中 ， 我 们 看 到 了 这 个 过 程 在 人 脸 识别 任务 中 是 如 何 进 行 的 。 

















图 8-20 


图 8-20 中 从 磊 到 右 ， 我 们 可 以 在 深度 学 习 网 络 的 每 个 隐藏 层 中 ， 退 踩 个 断 增 加 的 表达 
复杂 性 。 

在 图 8-21 中 ， 我 们 看 到 的 网 络 只 有 一 个 隐藏 层 ， 不 过 ， 拥 有 多 个 隐藏 层 是 音 规 的 实践 
做 法 ， 而 它 也 是 深度 学 习 这 一 术语 的 来 源 。 

RATE AAI AMA E APE ZR H EEI o 


“感受 到 一 条 腿 的 盲人 说 大 象 就 像 一 根 柱子 ， 感 受到 尾巴 的 那个 人 说 大 象 就 像 一 条 强 
F, 感受 到 讽 干 的 那个 人 说 大 象 就 像 一 棵 树 ， 感 受到 耳 杂 的 那个 人 说 大 象 就 像 一 把 扇子 ; 
感受 到 肚子 的 那个 人 说 大 象 就 像 一 面 墙 ， 感 受到 象牙 的 那个 人 说 大 象 就 像 实 心 管 。” 


一 一 维基 百科 。 
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Hidden 


Input 





8-21 


没有 一 个 人 能 够 纵 虎 全 局 ， 仅 仅 通 过 卢 面 的 观察 ， 他 们 无 法 正确 地 说 出 正在 评 佑 的 是 
什么 。 但 是 ， 将 同样 的 属性 结合 起 来 ， 反 复 观 察 ， 再 加 上 被 香 知 它 是 头 大 象 ， 那 么 下 一 次 
遇见 柱子 + 绳子 + 树干 + BT + Hs + 实心 管 的 组 合 ， 我 们 可 能 认为 它 驶 是 一 头 大 象 。 

现在 我 们 对 深度 学 习 有 了 更 好 的 理解 ， 下 面 将 继续 使 用 深度 学 习 来 创建 应 用 程序 。 
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如 果 你 一 耳 读 到 现在 ， 那 么 现在 可 以 开始 圣 受 成 来 了。 我 们 将 利用 人 工 留 能 的 强大 力 
量 做 一 些 真 正 重要 的 事情 。 我 们 将 找到 你 的 灵 吐 。 虽 ,不 完全 是 。 我 们 将 使 用 它 ,， 在 CIFAR-10 
图 像 数 据 集 中 找到 最 像 你 的 猫 。CIFAR-10 是 什么 ? 这 个 数据 集 是 用 作 计 算 机 视觉 研究 标准 
的 一 组 图 像 。 它 包括 10 个 分 类 ,成 干 上 万 的 图 像 , 例如 狗 、 青 蛙 ， 飞 机 和 汽车 等 每。 不 过 ， 
对 我 们 而 言 最 重要 的 是 ， 其 中 包括 猫 。 

现在 , 我 们 需要 理解 在 所 有 讨论 的 算法 中 , 深度 学 习 往往 是 最 强大 的 , 但 同时 对 于 “家 
性 使 用 者 ”也 是 最 不 友好 的 。 我 的 意思 是 ， 相 对 于 其 他 算法 ， 深 度 竺 习 通 第 需要 更 长 的 训 
练 时 间 、 更 多 的 计算 能 力 。 事 实 上 ， 这 也 是 神经 网 络 染 构 没有 被 快速 接受 的 原因 之 一 。 随 
看 较 便 宜 的 GPU 图 形 处 理 单元 ) 出现， 它 才 成 为 研究 人 员 的 可 选项 之 一 。 


鉴于 此 ， 我 们 将 采取 两 大 措施 来 减少 模型 的 处 理 时 间 。 


第 一 个 措施 是 利用 GraphLab Create。 它 是 一 个 很 流行 的 大 规模 机 右 学 习 框 染 。 它 提供 了 
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一 个 很 好 的 API， 有 点 像 pandas 和 scikit-learn 的 结合 。 通 常 ， 它 是 收费 的 服务 一 一 
需要 许可 证 ， 但 是 对 于 学 术 用 途 是 免费 的 ， 似 乎 还 包括 了 Bootcamps 和 大 规模 在 线 公 开 谍 
fé (MOOC)， 如 Coursera. 18 $^ [3] 1k Vs ea I] V 1 2E o 


Graphlab 的 安装 很 人 简单 。 细节 可 以 在 这 里 找到 
https://dato.com/download/install-graphlab-create-command-line.ht 
m1l。 基 本 上 ， 它 只 需要 填写 表单 束 可 以 获取 许可 证 ， 然 后 复制 并 粘贴 它 提 供 的 pip 命令 。 


注意 ， 你 必须 使 用 Python 2.7, Python3 目前 还 不 支 


缩短 处 理 时 间 的 下 一 个 措施 是 使 用 被 称 为 迁移 学 习 的 东西 。 迁 移 学 习 的 基本 思想 是 利 
用 大 规模 的 、 高 度 训 练 的 、 针 对 霖 项 具体 任务 的 深度 学 习 网 络 的 能 力 。 然 后 ， 我 们 雁 反 这 
些 网 络 的 最 高 层 ， 以 使 用 较 低 层 作 为 特征 ， 让 其 运作 在 没有 受过 训练 的 任务 中 。 请 记 住 ， 
在 事物 的 综合 表示 方面 ， 较 低层 的 特殊 性 更 少 。 在 数字 识别 的 世界 中 ， 较 低层 可 以 表示 环 
状 或 耳 线 ， 而 较 局 层 更 多 的 是 关注 0 或 1。 在 大 象 识别 的 世界 中 ， 低 层 更 多 的 是 基于 刷子 和 
树干 。 在 迁移 学 习 中 ， 我 们 可 以 提取 这 些 较 低级 别 的 特征 ， 以 便 将 它们 应 用 到 新 的 领域 
那些 它们 没有 专门 受训 过 的 领域 。 


























本 节 中 的 很 多 信息 都 参考 了 有 关机 器 学 习 基 础 的 Coursera 课 
E, "Ei EG: 
https://www.coursera.org/learn/ml-foundations, 
如 果 你 有 兴趣 深入 研究 这 些 材 料 ， 我 强烈 推荐 你 阅读 它 。 

有 了 这 些 ， 让 我 们 开始 编码 。 灵 兽 等 者 我 们 呢 。 

我 们 将 从 包 的 引入 开始 。 


import graphlab 





graphlab.canvas.set target('ipynb') 


接 下 来 ， 我 们 从 CIFAR-10 数据 集中 加 载 将 要 使 用 的 一 组 图 像 。 


gl img = 
graphlab.SFrame('http://s3.amazonaws.com/dato-datasets/coursera/deep learni 
ng/image train data') 

gl img 


这 将 产生 图 8-22 的 输出 。 


200 第 8 章 建 立 图 像 相 似 度 的 引擎 


深度 学 习 的 特征 metn 
24 Height: 32 Width: 32 bird [0.242871761322, [73.0, 77.0, 58.0, 71.0, 
1.09545373917, 0.0, ... 68.0, 50.0, 77.0, 69.0, ... 
33 Height: 32 Width: 32 cat [0.525087952614, 0.0, [7.0, 5.D, 8.0, 7.0, 5.0, 
0.0, 0.0, 0.0, 0.0, ... 8.0, 5.0, 4.0, 6.0, 7.0, ... 


36 Height: 32 Width: 32 cat [0.566015958786, 0.0, [169.0, 122.0, 65.0, 
0.0, 0.0, 0.0, 0.0, ... 131.0, 108.0, 75.0, ... 

70 Height: 32 Width: 32 [1.12979578972, 0.0, 0.0, [154.0, 179.0, 152.0, 
0.778194487095, 0.0, ... 159.0, 183.0, 157.0, ... 

Height: 32 Width: 32 bird [1.71786928177, 0.0, 0.0, [216.0, 195.0, 180.0, 
0.0, 0.0, 0.0, ... 201.0, 178.0, 160.0, ... 


图 8-22 





你 会 看 到 几 列 标识 信息 ， 例 如 编号 和 标签 ， 你 还 会 注意 到 名 为 “深度 特征 ”的 列 。 这 
些 特 征 是 从 一 个 大 规模 的 、 经 过 训练 的 深度 学 习 网 络 提 取 而 来 。 稍 后 我 们 将 解释 如 何 使 用 
它们 。 现 在 ， 让 我 们 继续 。 

使 用 下 面 的 代码 ， 我 们 可 以 观察 一 下 图 像 。 

gl img['image'][0:5].show() 

这 将 产生 图 8-23 的 输出 。 


SArray 中 的 5 张 图 片 


可 区 


Z| 8-23 











不 圣 的 是 ， 图 片 非 常 小， 但 你 可 以 调整 它们 的 大 小 ， 让 其 看 得 稍微 清楚 些 。 
graphlab.image analysis.resize(gl img['image'][2:3], 96,96).show() 
这 将 产生 图 8-24 的 输出 。 


现在 ， 所 有 用 于 比较 的 图 片 都 已 丝 加 载 完全 了 ， 我 们 只 需要 加 载 目 己 的 照片 。 我 会 加 
载 目 己 的 一 张 赂 请 ， 它 应 该 适用 于 这 个 任务 。 当 然 ， 你 需要 在 该 位 置 加 载 你 目 己 的 。 

img = graphlab.Image('/Users/alexcombs/Downloads/profile pic.jpg') 

ppsf = graphlab.SArray([img]) 


ppsf 
PPsf.show() 





graphlab.image analysis.resize(ppsf, 32,32) 
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这 将 产生 图 8-25 的 输出 。 


SArray 中 的 一 张 图 上 


SArray 中 的 一 张 图 片 





8-24 图 8-25 


接 下 来 , 我们 需要 将 该 图 像 放 入 包含 之 前 训练 图 像 的 数据 框 中 。 但 是 ， 要 做 到 这 一 点 ， 
我 们 首先 需要 提取 其 特征 。 具 体 如 下 。 


ppsf = graphlab.SFrame (ppsf) .rename ({'X1': 'image']) 
ppsf 


上 述 代码 生成 图 8-26 的 输出 。 
现在 ， 我 们 将 提取 图 像 的 深度 特征 。 


ppsfl'deep features'] = deep learning model.extract features (ppsf) 
ppsf 


上 述 代 人 码 生 成 图 8-27 的 输出 。 


深度 特征 


: 
高 度 : 32 SF: 32 [2.32031345367, 0.0, 0.0, 
fry Rapp o 
高 度 : 32 宽度: 32 0.0, 0.0, 0.31992828846, ... 








[16 x 151] [14x 2] 
图 8-26 图 8-27 
此 刻 , 我 们 只 需要 一 些 最 后 的 操作 ,， 束 能 让 自己 的 照 厂 与 训练 的 图 片 拥有 同样 的 格式 。 
ppsf['label'] = 'me' 
gl img['id'].max() 
49970 
上 述 代码 生成 图 8-28 的 输出 。 
8-28 





我 们 看 到 数据 框 中 最 大 的 ID 编号 为 49.970。 我 们 为 自己 照片 分 配 的 编号 为 
$0,000， 这 样 做 只 是 为 了 便于 记忆 。 
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pPsf['id'] = 50000 
ppsf 


上 述 代 人 码 生 成 图 8-29 的 输出 。 


高 度 : 32 宽度 : 32 [2.32031345367, 0.0, 0.0, 50000 
0.0, 0.0, 0.31992828846, ... 


[117 x 47 ] 





8-29 





下 不 多 快 好 了 ， 现 在 我 们 将 使 用 这 些 列 来 连接 所 有 的 内 容 。 


labels = ['id', 'image', 'label', 'deep features'] 
part train = gl img[labels] 

new train = part train.append(ppsf[labels]) 

new train.tail() 


这 将 产生 图 8-30 的 输出 。 


49913 | 高 度 :32 宽度 :32 | automobile [1.2023819685， 
0.342965483665, 0.0, ... 

49919 高 度 : 32 宽度 :32 | automobile [0.0, 0.0, 0.0, 
0.769036352634, 0.0, ... 


49927 高 度 :32 宽度 : 32 [0.558163285255, 0.0, 
1.05110442638, 0.0, 0.0, ... 


49958 高 度 :32 宽度 : 32 cat [0.674960494041, 0.0, 
0.0, 1.9640891552, ... 
49970 高 度 :32 宽度 : 32 cat [1.07501864433, 0.0, 0.0, 
0.0, 0.0, 0.0, ... 
50000 高 度 :32 宽度 : 32 [2.32031345367, 0.0, 0.0, 
0.0, 0.0, 0.31992828846, ... 


8-30 








好 吧 ， 我 们 现在 有 一 个 很 大 的 数据 框架 ， 包 含 所 有 的 图 像 ， 以 及 表示 为 向 量 的 图 像 深 
度 特征 。 此 时 ， 我 们 可 以 使 用 非常 简单 的 模型 来 找到 最 相似 的 图 像 。 

我 们 首先 使 用 k- 最 近邻 居 模 型 ， 将 某 个 随机 选取 的 猫 和 集合 中 其 他 的 猫 进 行 比较 ， 感 
觉 一 下 我 们 的 模型 效果 如 何 。 


knn model = 
graphlab.nearest neighbors.create(new train,features-['deep features'], 
label-z'id') 


上 述 代 人 码 生 成 图 8-31 的 输出 。 
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Starting brute force nearest neighbors model training. 


8-31 





让 我 们 看 看 被 测试 的 小 猪 。 
cat test = new train[-2:-1] 
graphlab.image analysis.resize(cat test['image'], 96,96).show() 


这 将 产生 图 8-32 的 输出 。 SArray 中 的 一 张 图 片 
因此 ， 这 个 可 爱 的 像素 化 小 怪物 束 是 我 们 的 测试 主角 。 让 
我 们 找到 和 它 和 面貌 相似 的 其 他 小 猫 。 


sim frame = knn model.query(cat test) 





sim frame 


上 述 代码 生成 图 8-33 的 输出 。 8-32 


Starting pairwise querying. 
十 二 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


| Query points | £ Pairs | $ Complete. | Elapsed Time | 


| 22.45ms 


| 297.624ms 


查询 标签 指向 标签 m 
00 6186 38.0348505275 
| 00 | 15882 39.0333337944 
e 24302 40.5205578019 
0 16289 40.6156967032 


[b £T x 4 A] 
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最 后 让 我 们 看 看 匹配 上 的 小 猫 们 。 


def reveal my twin(x): 





return gl img.filter by(x['reference label'],'id') 
spirit animal = reveal my twin(knn model.query(cat test)) 
Spirit animal['image'].show() 
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这 将 导致 图 8-34 的 输出 。 


a>] a] m| [e 


Amei. PARRER, SE EE ERER A 

让 我 们 再 运 行 一 次 ， 选 择 男 一 只 小 独 。 这 里 我 省 略 了 代码， 只 是 给 你 看 看 被 测试 的 猫 
和 相似 僵 找 的 结果 。 

自 完 ， 这 是 被 测试 的 对 象 ， 如 图 8-35 所 示 。 





SArray 中 的 一 张 图 片 





图 8-35 


现在 是 相似 度 匹 配 的 结束 ， 如 图 8-36 所 示 。 


SArray 中 的 5 张 图 片 


nmnn 


图 8-36 


对 于 编写 145 的 图 片 ， 我 必须 承认 这 个 匹配 相当 不 错 。 然 而 ， 现 在 ， 到 了 我 们 一 下期 
符 的 时 刻 。 让 我 们 揭示 我 的 动物 双胞胎 。 


me test = new train[-1:] 





graphlab.image analysis.resize(me test['image'], 96,96).show() 


这 将 产生 图 8-37 的 输出 。 
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SArray 中 的 一 张 图 片 





8-37 


现在 ， 我 们 运行 一 次 搜索 ， 合 找 和 我 的 照 厂 最 匹配 的 图 片 。 


sim frame = knn model .query (me test) 


sim frame 


上 述 代 人 码 生 成 图 8-38 的 输出 。 


Starting pairwise querying. 
T-2--2-2-2-2-2---2---- T4-2-------- T-2-2-.---------- T4-2-2------2-2----- 十 


| Query points | # Pairs | $ Complete. | Elapsed Time | 


| 0.0498504 | 31.203ms 


| 100 | 330.71ms 


十 
| 
0 | 6567 38.5852216196 
NE CEN 11293 41.9754457649 
| 0 | 22193 42.8440615614 
EE | 36138 42.8565376605 


[5 fT x 4 Ji] 
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现在 ， 我 们 加 载 结果 。 


graphlab.image analysis.resize(spirit animal['image'][0:1], 96,96) .show() 


这 将 产生 图 8-39 的 输出 。 
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SArray 中 的 一 张 照片 





图 8-39 


我 觉得 还 行 。 我 认为 目 己 戴 的 帽子 次 定 了 一 切 ， 但 我 一 定 会 接 有 党 它 作 为 我 的 灵 兽 。 














8. 6 小结 


通过 本 章 ， 我 们 在 计算 机 视觉 应 用 的 机 带 学 习 领 域 中 进行 了 一 次 宏伟 的 旅程 。 我 们 讨 
论 了 一 些 这 个 领域 使 用 的 技术 ， 以 及 如 何 使 用 这 些 拉 术 创建 可 行 的 应 用 。 我 们 还 阐述 了 深 
度 学 习 的 原理 ， 以 及 如 何 将 其 应 用 于 特征 提取 和 分 类 。 最 和 章 要 的 是 ， 你 现在 有 一 个 非 第 科 
学 的 方法 来 寻找 你 的 灵 兽 。 仅 仅 这 一 点 就 值 回 票 价 了 。 


在 下 一 章 中 ， 我 们 将 了 解 如 何 创建 一 个 聊天 机 硕 人 的 应 用 程序 。 
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几乎 从 电脑 诞生 的 那天 开始 ， 我 们 惑 弥 想 有 天 一 日 能 够 与 它们 交谈 。 电 影 告 诉 大 家 ， 
这 些 机 规 将 是 拥有 超 高 智能 的 代理 。 除 了 能 够 进行 对 话 ， 这 些 机 喜人 还 能 观察 我 们 的 情结， 
其 至 在 必要 的 时 候 违 抗 我 们 的 命令， 束 像 在 电影 《2001: KERE) PIE. 


在 电影 问世 11 年 之 后 ， 随 着 iPhone 4S 的 发 布鞋 果 公司 同 全 世界 介绍 了 Siri。 对 于 任 
何 使 用 过 Siri 的 人 来 说 很 显然 的 事实 是 ， 如 果 我 们 想 面 对 电影 中 HAL 9000 单位 所 展示 的 
那 般 智能 ， 那 么 还 有 很 漫长 的 路 要 走 。 但 是 ， 尽 管 这 些 代理 一 一 或 聊天 机 器 人 一 一 过 去 表 
HUE Ui. ZRA ERNER E. 


在 本 章 中 ， 我 们 将 学 习 如 何 从 头 打造 一 个 聊天 机 硕 人 。 一 路 走 来 ， 我 们 将 了 解 更 多 天 
于 该 领域 的 历史 及 其 未 来 前 景 。 


我 们 将 在 本 章 讨 论 以 下 主题 。 
RIRIA. 

ell A Bias AT pg E o 

ell A Bias AT T 

egg —^ BIA Us A. 





























9.1 Bd ix 





1950 ^E, Alan Turing 在 一 篇 车 名 的 论文 中 提出 了 这 样 的 问题 :“ 机 器 能 思考 吗 ?”” 作 
为 脚踏实地 的 天 才 ， 他 决定 不 去 正面 地 回答 这 个 问题 ， 而 是 将 其 放 入 “其 他 人 头脑 之 问题 ” 
的 框架 中 。 这 个 问题 提出 了 男 一 个 疑问 :“ 我 们 如 何 真正 知道 其 他 人 是 否 拥 有 和 我 们 一 样 的 
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头脑 ? ”因为 我 们 只 能 观察 他 们 的 行为 一 一 而 不 是 他 们 内 心 的 活动 ， 我 们 必须 相信 他 们 像 
我 们 一 样 。Turing 提出 ， 如 果 机 器 表现 出 它 好 像 是 智能 的 ， 那 么 其 实 我 们 也 应 该 这 样 看 。 
简 而 言 之 ， 这 是 图 灵 测 试 。 如 果 机 器 通过 了 这 个 测试 ， 那 束 意 味 看 我 们 要 相信 该 机 器 是 和 
目 己 一 样 的 同类 人 。 

你 可 能 想 知 道 目前 为 止 ， 是 人 否 有 程序 曾经 成 功 地 通过 网 元 测试 。 答 案 是 ， 真 的 没有 官 
方 图 灵 测 试 。 最 接近 官方 活动 的 事情 是 Loebner 奖 。 这 是 一 个 每 年 举行 的 比赛 ， 对 评委 觉 
得 最 像 人 类 的 聊天 机 器 人 ， 颁 发 适度 的 奖励 。 如 果 这 上 听 起 来 过 于 严格 和 学 术 ， 它 可 以 被 描 
述 为 任何 事物 。 据 说 ，Loebner 赞助 比赛 是 因为 他 可 视 任 何 形式 的 劳动 。 

布 望 目前 为 止 ， 你 已 经 意识 到 任何 关于 “通过 图 灵 测 试 ” 的 声明 更 多 的 是 假 依 ， 而 不 
是 实际 的 科学 。 尽 管 如 此 ， 图 灵 的 初始 概念 是 非常 有 价值 的 。 


9.2 BAUR ABS SE 









































我 还 记得 那天 父 杀 让 我 坐 在 他 的 IBM XT 和 面前， 看 着 它 黑色 和 绿色 闪烁 的 监视 莫 ， 并 
让 我 和 “ 它 ” 说 话 。 对 话 大 臻 是 这 样 的 : 
>Hello? How are you feeling today? 


»Hi. Who is this? 


>Hi there. how are you today? 





>I'm fine. You didn't tell me who you are. 

>We should be discussing you, not me. 

>We should? Why? 

>Let's change focus a bit. Tell me about your family. 
>You are impossible to have a conversation with. 
>Can you elaborate on that? 

>You are killing me. 

2-Perhaps you would like me to be killing you. 
2Ok, you are freaking me out. 

2-Perhaps you're really talking about yourself? 
2What?? That makes no sense. 

>How would an answer to that help you? 

2 END 

>Very Interesting. 

>QUIT 

>Thank you for talking with me. 

>#SHHHSHCC... 
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和 我 交谈 的 “ 它 ” 是 一 个 名 为 ELIZA 的 程序 。 由 Joseph Weizenbaum T: 20 世纪 60 年 代 
中 期 ， 在 麻 省 理工 学 院 人 工 智能 实验 室 编写 。 他 创建 ELIZA 来 模仿 罗杰斯 心理 治疗 师 “ 的 
反应 。 虽 然 无 论 从 何 种 层面 来 理解 ， 这 些 反 应 都 是 很 滑稽 的 ， 但 是 该 程序 能 够 说 服 一 些 用 
尸 ， 让 他 们 觉得 正在 和 一 个 真实 的 人 人 聊天。 考虑 到 它 的 代码 不 足 200 行 ， 并 使 用 随机 化 和 
正则 表达 式 进 行 婴 囊 学 舌 般 的 应 和 谷 ， 这 已 经 是 一 个 了 不 起 的 壮举 了 。 即 使 在 今天 ， 这 个 简 
单 的 程序 仍然 是 主流 的 做 法 。 如 果 你 问 Siri ELIZA 是 谁 , 她 会 告诉 你 她 是 一 位 好 朋友 以 及 出 
色 的 心理 医生 。 


如 果 说 ELIZA 是 聊天 机 需 人 的 和 骏 形 ， 之 后 我 们 又 看 到 了 什么 ? 最 近 这 些 年 ， 新 型 的 聊 
天 机 器 仓 发 式 地 增长 ， 最 值得 注意 的 是 Cleverbot. 

Cleverbot 于 1997 年 在 互联 网 上 问世 。 从 那 时 起 ， 这 个 机 器 人 己 经 进行 了 数 亿 次 的 对 
话 。 不 像 早 期 的 聊天 机 右 人 ， 随 着 每 次 对 话 的 进行 ，Cleverbot( 机 如 其 名 〉 似乎 变 得 更 加 
智能 。 对 于 该 算法 确切 的 工作 原理 ， 相 关 细 节 很 难 找到 ， 气 说 是 将 所 有 的 对 话 记 录 到 数据 
库 中 ， 并 通过 识别 数据 库 中 最 类 似 的 问题 和 回应 ， 来 找到 最 合适 的 答复 。 

我 在 图 9-1 所 示 的 屏 医 截 图 中 ， 提 出 了 一 个 无 意义 的 问题 ， 你 可 以 看 到 Cleverbot 根据 
字符 串 的 匹配 ， 发 现 了 和 这 个 问题 中 所 讨论 对 象 相 类 似 的 事物 。 


Cleverbot 


Do you like nashnash? 




















NASCAR is for rednecks. p share! 


say to cleverbot... — 


think about it think for me thoughts so far 





我 继续 相关 的 话题 ， 如 图 9-2 所 示 。 

我 再 一 次 得 到 相似 的 答复 。 

你 还 会 注意 到 ， 话 题 可 以 在 多 个 会 话 中 持续 。 对 于 我 的 回答 ， 它 要 求 我 提供 更 多 的 细 
节 ， 并 证 明 我 的 答案 是 合理 的 。 看 上 去 ， 这 是 使 Cleverbot 更 聪明 的 方法 之 一 。 








(D 译 者 注 : 罗杰斯 ， 著 名 的 心理 学 家 ， 罗 氏 心 理 治疗 法 的 创始 人 。 


Cleverbot 


No. 
Why not? 
I like nashnash. 


What are nawks? p share! 


bay to cleverbot... 三 


think about it think for me thoughts so far 
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虽然 聊天 机 器 人 学 习 人 类 可 能 很 有 趣 ， 但 它们 也 有 黑暗 面 。 

MEXE, MRE Twitter 上 发 布 了 一 个 名 为 Tay BB BU As DAUBORA VS LACE TIS] 
Tay 提出 问题 ，Tay 会 根据 她 的 “个 性 ”做 出 回应 。 有 显然， 微软 对 这 个 机 絮 人 进行 了 特定 的 
编程 ， 让 其 看 上 去 像 一 个 19 岁 的 美国 女孩 。 她 希望 成 为 你 的 虚拟 “好 友 ”， 唯一 的 问题 是 
她 听 上 去 像 一 个 年 轻 的 极端 主义 者 。 

由 于 一 系列 令 人 难以 置信 的 烛 动 性 推 文 ， 微 软 被 迫 在 Twitter EXA Y Tay， 并 发 布道 多 : 

“现在 很 多 人 都 知道 , 星期 三 我 们 推出 了 一 款 名 为 Tay 的 聊天 机 器 人 。 对 于 Tay 意外 发 
布 的 攻击 性 和 伤害 性 的 推 文 ， 我们 非常 抱歉 ， 这 并 不 代表 我 们 的 立场 或 者 我 们 支持 谁 。 现 
在 Tay 已 经 下 线 ， 对 于 和 我 们 的 原则 以 及 价值 观 相 冲突 的 恶意 内 容 ， 需 要 及 时 地 预测 ， 只 
有 当 我 们 有 信心 可 以 更 好 地 预测 时 ， 才 会 让 Tay 再 次 回归 。” 

一 一 2016 年 3 月 25 日 微软 官方 博客 

显然 ， 想 要 在 未 来 对 公众 发 布 聊 天 机 吉 人 的 品牌 ， 应 该 从 这 次 事件 中 吸取 教训 。 

毫 无 疑问 ， 品 牌 商 们 正在 接受 聊天 机 器 人 。 从 Facebook 到 Taco Bell* 都 在 进入 这 个 领 
域 。 

来 看 看 TacoBot， 如 图 9-3 所 示 。 

















QD 译 者 注 : 美国 非常 知名 的 连锁 餐饮 品牌 。 
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= tacobot 
— Ordersetforlaunch! ^" 4 


Please confirm the final total: $2.39 which includes all applicable taxes. You will pickup the 
goods at 12105 W Pico Blvd. If that sounds right, tell me to place the order!!! 


a5 human 
| like you 
tacobot 
— |don't have emotions but... | like you too | guess. 


human 
What came first, the chicken or the egg? 


tacobot 

That's easy. You can't have a chicken unless it hatches from and egg so... But wait, hang on a sec... 
you can't have an egg unless it's laid by a... ERROR ERROR LOGICAL PARADOX... REBOOTING.... 
Woah, sorry about that. All | know for sure is that both of them taste good when you wrap 'em in a 
tortilla. 





图 9-3 
是 的 ， 这 是 一 个 真实 的 例子 ， 尽 管 发 生 了 Tay 那样 的 事件 ， 未 来 的 UI 还 是 很 有 可 能 成 
为 TacoBot 这 样 的 东西 。 最 后 一 个 例子 可 能 进一步 解释 这 是 为 什么 。 
Quartz 最 近 推 出 了 一 个 将 新 闻 转 变 为 对 话 的 应 用 程序 。 在 聊天 中 你 的 代入 感 更 好 ， 就 
像 倾听 一 个 朋友 述说 新 闻 ， 而 不 是 让 系统 简单 地 排出 故事 列表 。 如 图 9-4 所 示 。 


David Gasca, Twitter 的 产品 经 理 ， 在 Medium 的 一 篇 文章 中 描述 了 他 使 用 该 应 用 的 经 
历 。 他 摘 述 了 会 话 的 本 质 如 何 触发 了 只 有 人 与 人 之 间 才 有 的 那 种 感觉 。 下 面 的 内 容 是 有 关 
他 在 这 个 应 用 中 允 到 广告 时 的 感觉 

“与 简单 的 展示 广告 不 同 ， 和 我 的 应 用 对 话 时 ， 我 觉得 欠 它 些 什 么 : 我 就 想 单 击 。 在 
潜意识 的 层次 ， 我 党 得 需要 互动 ， 不 能 让 应 用 程序 失望 : 因为 应 用 程序 给 了 我 这 些 内 容 。 
到 目前 为 止 它 都 很 棒 ， 我 也 喜欢 GIF 的 动 图 。 我 也 许 应 该 单 击 这 个 广告 ， 因 为 应 用 程序 正 
在 很 耐心 地 询问 我 。” 

如 果 这 种 体验 是 普 表 的 一 -我 也 期 望 它 是 一 一 那么 这 可 能 是 广告 界 的 一 件 大 事 , 军 无 疑 
问 ， 广 告 的 利润 将 推动 UI 的 设计 : 

“机 器 人 的 行为 越 像 一 个 真实 的 人 ， 它 就 会 越 像 真人 一 样 被 对 待 。” 

一 一 Mat Webb， 技 术 专 家 , 《Mind Hacks》 一 书 的 合 著者 


到 目前 为 止 ， 你 可 能 很 想 知 道 这 些 东 西 是 如 何 运 作 的 ， 所 以 让 我 们 继续 吧 ! 
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4Back to App Store 8:13 PM 


Open the app whenever you want, and we'll 
give you the most important and interesting 
news from around the global economy. 


We can also send you notifications. They're fun, 
customizable, and won't even buzz your phone 
most of the time. Is that OK? 


db 


Great. You'll get a pop-up asking for 
permission. 


Thanks. ™® You can customize your experience 
by going to settings, located to the left. Swipe 
over there any time. 


Are you ready to get started? 


Alright, let's get you the latest news... 


It'S a grim day at the Preakness Stakes—and 
not just because of rainy weather. Two 
horses died after their races around the 
Pimlico tracks. 


Ca anything else? 


到 9.4 





9.3 BAUR ABT 


初始 的 ELIZA 应 用 程序 是 200 行 出 头 的 代码 。Python NLTK 的 实现 也 是 差不多 的 短小 
精 悍 。 在 NLTK 网 站 的 这 个 链接 (http://www.nltk.org/modules/nltk/chat/ 
eliza.html)， 可 以 看 到 一 些 摘要 。 这 里 我 也 转载 了 以 下 内 容 。 


Natural Language Toolkit: Eliza 


Copyright (C) 2001-2016 NLTK Project 
Authors: Steven Bird «stevenbirdl(gmail.com» 
Edward Loper «edloper(gmail.com» 

URL? ht oo i ek Oro 

For license information, see LICENSE.TXT 


Based on an Eliza implementation by Joe Strout 


THEO 洒洒 洒洒 洒洒 CH 
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<jJoe@strout.net>, 

# Jeff Epler <jepler@inetnebr.com> and Jez Higgins 
«xmailto:jezQjezuk.co.uk». 

# a translation table used to convert things you say into 


things the 
# computer says back, e.g. "I am" --» "you are" 
from X future — import print function 


from nltk.chat.util import Chat, reflections 
# a table of response pairs, where each pair consists of a 
# regular expression, and a list of possible responses, 
$* with group-macros labelled as $1, $22. 
pairs = ((r'I need (.*)',("Why do you need $1?", "Would it 
really help you to get $1?","Are you sure you need 
$1?")),(r'Why don't you (.*)', 
("Do you really think I don't $1?","Perhaps eventually 


I will $1.","Do you really want me to $1?")), 
[snip] (r'(.*)M?', ("Why do you ask that?", "Please consider 


whether you can answer your own question.", 
"Perhaps the answer lies within yourself?", 
"Why don't you tell me?")), 
(r'quit',("Thank you for talking with me.","Good-bye.", 
"Thank you, that will be $150. Have a good day!")), 


(r'(.*)',("Please tell me more.","Let's change focus a bit... 
Tell me about your family.","Can you elaborate on 
that?","Why do you say that $1?","I see.", 

"Very interesting." ,"$1.","I see. And what does that 


tell you?","How does that make you feel?", 

"How do you feel when you say that?")) 

) 

eliza chatbot - Chat(pairs, reflections) 

def eliza chat(): 

print("TherapistNMn--------- m) 

print("Talk to the program by typing in plain English, 

using normal upper-") 

print('and lower-case letters and punctuation. Enter "quit" 
when done. ') 

print('z'*72) 

print("Hello. How are you feeling today?") 

eliza chatbot.converse() 

def demo(): 

eliza chat() 

if . name  -- " main  ": 


demo () 


从 这 段 代 码 中 可 以 看 出 ， 它 解析 了 输入 的 文本 ， 然 后 将 其 与 一 系列 的 正则 表达 式 进行 
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匹配 。 一 旦 输入 匹配 成 功 ， 就 会 返回 一 个 随机 的 答复 〈 有 时 回应 也 会 市 上 输入 的 一 部 分 )。 
所 以 ， 像 “I need a taco” 这 样 的 问题 有 时 会 触及 “Would it really help you 
to get a taco?" XES. WA, FRERE, m HcGEXSHyAe, MEXA 
技术 已 经 可 以 为 你 提供 这 项 服务 了 “祝福 你 ，TacoBot)， 当 然 还 是 在 早期 发 展 阶段 。 令 人 
震惊 的 是 ， 有 些 人 确实 相信 ELIZA 是 一 个 真实 的 人 。 


但 是 ， 更 先进 的 机 占 人 又 怎样 呢 ? 它们 是 如 何 构建 的 ? 


令 人 惊讶 的 是 ， 你 过 到 的 大 多 数 聊 天 机 器 人 并 没有 使 用 机 器 学 习 的 技术 ， 他 们 使 用 的 
征 所 谓 的 基于 检索 的 模型 。 这 意味 肴 答复 是 根据 问题 和 上 下 文 而 预定 义 好 的 。 这 些 机 医 人 
最 常见 的 架构 是 被 称 为 人 工 智能 标记 语言 CAML) 的 东西 。AIML 是 一 种 基于 XML 的 模 
式 ， 它 表示 机 絮 人 应 该 如 何 与 用 户 的 输入 进行 交互 。 它 只 是 一 个 更 高 级 版 本 的 ELIZA。 

让 我 们 来 看 看 如 何 使 用 AIML 来 生成 答复 。 首 先 ， 预 处 理 所 有 的 输入 以 使 其 标准 化 。 
这 意味 看 当 你 输入 “Waaazzup ???" W, 'CA4EBASI S "WHAT IS UP”。 这 个 预 处 理 步 又 通 
过 多 种 方式 ， 将 针对 同样 事物 的 不 同 次 法 变 成 一 个 输入 ， 这 样 就 可 以 在 输入 上 运行 单个 规 
则 。 标 点 符号 等 在 这 个 阶段 也 被 去 除了 。 一 旦 完成 ， 输 入 束 匹 配 上 了 对 应 的 规则 。 以 下 是 
模板 的 示例 。 

«category» 

«pattern»WHAT IS UP«/pattern» 


«template»The sky, duh. Pfft. Humans...«/template» 
«/category» 


这 是 基本 的 设置 ， 你 也 可 以 使 用 通 配 待 、 随 机 化 和 优先 级 模式 。 例 如 ， 以 下 借 却 使 用 
了 通配符 匹配 。 

<category> 

<pattern>* FOR ME<pattern> 


<template>I'm a bot. I don't <star/>. Ever.</template> 
«/category» 


这 里 ，*# 通 配 符 匹 配 了 FOR ME 之 前 的 一 个 或 多 个 单词 ， 然 后 在 返回 的 输出 模板 中 重复 这 
些 内 容 。 如 果 用 户 输入 “Dance for me!", PAME *I'mabot.Idon'tdance. Ever." 

正如 你 所 见 ， 这 些 规则 并 没有 产生 任何 接近 于 真实 和 贸 力 的 东西 ， 但 有 一 些 技巧 让 人 们 
产生 了 幻觉 。 一 个 更 棒 的 能 力 是 根据 话题 的 内 容 ， 产 生 相 应 的 答复 。 

例如 ， 以 下 是 找到 话题 的 规则 。 


<category> 
Xpattern»I LIKE TURTLES«/pattern» 
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<template>I feel like this whole «set name="topic">turle</set> 
thing could be a problem. What do you like about them? 

«/template» 

«/category» 


一 且 设 置 了 话题 ， 那 么 吏 可 以 匹配 上 特定 于 该 上 下 文 的 规则 。 


«topic name-"turtles"» 





«category» 

Xpattern»* SHELL IS *«/pattern» 

«template»I dislike turtles primarily because of their shells. 
What other creepy things do you like about turtles? 

«/template» 

«/category» 


«category» 

Xpattern»* HIDE *«/pattern» 

«template»I wish like a turtle that I could hide from this conversation. 
«/template» 

«/category» 


< EOLGS 
让 我 们 看 看 这 个 交互 大 致 是 什么 样子 的 。 


>I like turtles! 

>I feel like this whole turtle thing could be a problem. What do you like 
about them? 

>I like how they hide in their shell 

>I wish like a turtle I could hide from this conversation. 


你 可 以 看 到 ， 谈 话 的 连续 性 增强 了 现实 感 。 


你 可 能 认为 在 深度 学 习 的 时 代 ， 这 不 是 最 先进 的 技术 ， 你 是 对 的 。 虽 然 大 多 数 机 堪 人 
邦 是 基于 规则 的 ， 但 下 一 代 的 聊天 机 各 人 正在 浮现 ， 它 们 古 基 于 神经 网 络 的 。 


2015 年 ， Google 的 Oriol Vinyas 和 Quoc Le 发 表 了 一 篇 论文 
(https://arxiv.org/pdf/1506.05869v1.pdf), 描述 了 基于 序列 到 序列 模型 的 神经 
网 络 构 造 。 这 种 类 型 的 模型 将 输入 序列 ， 例 如 “ABC”， 映射 到 诸如 “XYZ” 的 输出 序列 。 
这 些 输入 和 输出 可 以 是 从 一 种 语言 到 另 一 种 语言 的 翻译 。 然 而 ， 在 他 们 的 工作 案例 中 ， 训 
练 数据 不 再 是 语言 翻译 ， 而 是 技术 文 持 的 对 话 脚本 和 电影 中 的 对 白 。 虽 然 这 两 个 模型 的 结 
果 都 很 有 趣 ， 但 基于 电影 对 白 模 型 的 互动 却 更 加 引 人 和 人 注目 。 


图 9-5 是 从 论文 中 截取 的 交互 样 例 。 
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Human: who is skywalker ? 
Machine: he is a hero . 
Human: who is bill clinton ? 
Machine: he 5s a billionaire . 
Human: is sky blue or black ? 
Machine: blue . 

Human: does a cat have a tail ? 


Machine: yes . 

Human: does a cat have a wing ? 
Machine: no 

Human: can a cat fly ? 

Machine: no . 

Human: how many legs does a cat have ? 
Machine: four , i think . 


9-5 


这 些 都 不 是 由 人 类 显 式 编 码 的 或 存在 于 训练 集中 ， 然 而 ， 看 着 这 些 就 像 和 真人 交谈 ， 
SAREA A RER. EREA ESANA WE 9-6 Bran» 








Human: what do you think about tesla ? 
Machine: he ’s a good conductor . 

Human: what do you think about bill gates ? 
Machine: he 's a good man . 

Human: What do you think about messi ? 
Machine: he ’s a great player . 

Human: what do you think about cleopatra ? 
Machine: o , she ’s very regal . 

Human: what do you think about england dur- 
ing the reign of elizabeth ? 

Machine: it was a great place . 





图 9-6 


注意 ， 模 型 回答 时 似乎 考虑 了 性 别 〈 人 他， 她)、 地 理 ( 身 格 兰 ) 和 职业 球员)。 即 使 
征 有 关 意 义 、 伦 理 和 道德 的 问题 ， 表 现 得 也 不 错 ， 如 图 9-7 所 示 。 


Human: what is the purpose of life ? 
Machine: to serve the greater good . 


Human: what is the purpose of living ? 
Machine: to live forever . 





图 9-7 


会 话 还 在 继续 ， 如 图 9-8 所 示 。 
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Human: okay , i need to know how should i be- 
have morally ... 

Machine: i don 't know how to tell you . 
Human: is morality and ethics the same ? 
Machine: yes , sir . 

Human: wAat are the things that i do to be im- 


moral ? 

Machine: i don 't know. 

Human: give me some examples of moral ac- 
tions ... 

Machine: i 'm not a moralist . 

Human: alright , morality ? 

Machine: integrity . 





9-8 
Jp XC OS] s BAILA 178. ERR ROT T HE ERR RES, BA RI H6 CES Xe o PUE TJ 
人 工 入 能 产物 了 。 
我 真心 推荐 你 阅读 整 篇 论文 。 它 写 得 不 是 过 于 技术 人 化， 而且 肯 定 能 让 你 了 解 这 项 技术 
目前 发 展 的 进度 。 
我 们 谈 了 很 多 关于 聊天 机 器 人 的 历史 、 类 型 和 设计 ， 现 在 让 我 们 继续 ， 创 建 一 个 属于 
目 己 的 机 器 人 吧 ! 


9.4 打造 一 个 聊天 机 器 

















现在 ， 了 解 了 聊天 机 器 人 有 哪些 可 能 性 ， 你 很 可 能 想 打造 一 个 最 好 的 、 最 先进 的 、Google 
级 别 的 机 器 人 ， 对 吧 ? 好 吧 ， 现 在 不 要 想 着 那些 了 ， 因 为 我 们 会 做 相反 的 事情 ! 我 们 将 建 
立 史上 最 糟糕 的 机 器 人 ! 

让 我 告诉 你 为 什么 。 要 创建 一 个 与 Google 所 造 的 机 器 人 相 娘 美的 聊天 机 器 人 ,需要 大 
量 的 硬件 和 时 间 。 在 你 的 MacBook Pro 上 ， 无 论 使 用 何 种 真实 训练 集 进行 学 习 ， 模 型 通常 
都 要 耗费 一 个 月 或 两 个 月 的 时 间 ， 你 是 无 法 速成 它 的 。 这 意味 着 你 不 得 不 在 Amazon 的 AWS 
上 租用 一 些 时 间 ， 而 且 也 不 是 随 随便 便 什么 机 器 都 能 满足 需求 的 。 这 类 机 器 需要 有 一 些 强 
力 的 性 能 规格 ， 最 好 是 GPU。 尝 试 这 些 当然 是 好 事情 。 但 是 ， 如 果 你 的 目标 只 是 建立 一 些 
酷 炫 、 吸 引 人 的 东西 ， 那 么 下 面 的 内 容 就 可 以 帮助 到 你 。 


我 也 应 该 提前 警告 你 ， 虽 然 Cleverbot 不 是 微软 的 Tay， 但 对 话 的 口味 可 能 还 是 会 有 点 
重 。 如 果 你 很 容易 被 冒犯 ， 那 你 可 能 需要 另 一 个 不 同 的 训练 集 。 


好 ， 让 我 们 开始 吧 ! 
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首先 ， 和 往常 一 样 ， 我 们 需要 训练 数据 。 一 如 既往 ， 这 是 整个 过 程 中 最 具 挑 战 性 的 一 
步 。 圣 运 的 是 ， 我 找到 了 一 个 超 先 的 会 话 数据 库 。 网 站 notsocleverbot.com 让 人 们 提交 他 们 
与 Cleverbot 之 间 最 靶 请 的 对 话 。 有 了 这 个 训练 集 ， 夫 复 何 求 ? 


让 我 们 来 看 看 Cleverbot 和 该 站 点 用 户 之 则 的 对 话 示 例 ， 如 图 9-9 所 示 。 


User: *lightsaber battle*. 
Cleverbot: Luke I am your father. 
User: *swings with lightsaber*. 
Cleverbot: *Blocks* *Swings lightsaber*. 
User: *blocks stabs with lightsaber*. 
Cleverbot: *pushes back with the force*. 
User: *pulls out gun*. 
Cleverbot: *Pulls out nuke*. 
User: *pulls out chuck norris*. 
Cleverbot: *pulls out God*. 
User: *pulls out universe*. 
$s *pulls out his mom*. 


: *curls up and cries*. 
User: *cuddles and cries*. 
Cleverbot: *kisses neck softly*. 
User: *cries more*. 
Cleverbot: *kisses tears more*. 
User: *cries even more*. 

: *Whispers* It's ok. 





图 9-9 


所 以 ， 我 们 将 从 这 里 开始 。 首 先 ， 我 们 需要 从 这 个 网 站 下 载 对 话 脚本 。 为 此 ， 我 们 将 
使 用 和 第 2 章 相同 的 工具 import .io， 如 图 9-10 所 示 。 


import .io Product ^ Pricing ^ Partners Blog Help Contact sales Login or 


Extract web data 


the easy way 


http://www.notsocleverbot.com/index. 


How it works See some examples 





图 9-10 
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你 只 需 将 链接 粘贴 到 页 面 上 的 表单 中 即 可 。 输 入 的 格式 束 像 这 样 : 


http://www.notsocleverbot.com/index.php?page-1. 
一 旦 提交 ， 网 站 import.io 就 将 处 理 请 求 并 返回 一 个 页 面 ， 束 像 图 9-11 这 样 。 


import.io © Give feedback Help Dashboard 
Add or manage URLs Create a blank table 'D Undo C' Redo | Data view Website view 


User: *walking*... Posted: 2016-0... 21 Comment 


User: *Facepal... Posted: 2016-0... Comment 


+ 1 more items 


Cleverbot: Well... Posted: 2016-0... Comment 
Cleverbot: *my ... Posted: 2016-0... Comment 
Cleverbot: He'll... Posted: 2016-0... Comment 
Cleverbot: Give.. Posted: 2016-0... Comment 


图 9-11 
如 果 从 这 里 看 一 切 正 常 ， 请 单 击 右上 角 附 近 的 粉色 “Done” 按 钮 。 
网 站 import.io 将 处 理 访 页面， 然后 将 带 你 到 图 9-12 这 样 的 界面 。 


import .io Pricing Help My account ~ 


www.notsocleverbot.c. . Z Run URLs 


« History P Integrate 





Q Search for an Extractor 


www.notsocleverbot.com 


Running your new Extractor for the first time 


notsocleverbot.com CSV will be available for download shortly... 


Download CSV See run history 





Free plan Configure URLs 


Configure your Extractor to run with multiple URLs from a website. Use the URL Generator to help build the list based on the URL's parameters, or if you 
already have a list of URLs you can paste them in below. 


A Show URL Generator 
Resets on 21st June 
Add URLs: 1 
Upgrade http;//www.notsocleverbot.com/index.php?page-1 


图 9-12 
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接 下 来 ， 单 击 中 间 的 Show URL Generator 按钮 ， 如 图 9-13 所 示 。 





import.io © Give feedback ^ Help ~ 


Add or manage URLs Create a blank table 'D Undo C Redo Download CSV Data view Website view 


1 16 四 15 mp CA CA 


User: This is to .. Posted: 2016-0.. Comment 
Cleverbot: Do y.. Posted: 2016-0. 16 7 Comment 


Cleverbot: You .. Posted: 2016-0.. Comment 


M 


Add column 


User: *walking*.. Posted: 2016-0.. Comment 


User: *Facepalm. Posted: 2016-0.. Comment 


Cleverbot: Well,.. Posted: 2016-0.. Comment 


Cleverbot: *my .. Posted: 2016-0.. Comment 





9-13 

接 下 来 ， 你 可 以 设置 要 下 载 的 数字 范围 。 例 如 ，1 一 20， 每 次 1 个。 显然 ， 你 抓 取 的 页 
面 越 多 ， 这 个 模型 就 会 越 好 。 但 是 ， 请 记 住 ， 你 的 请 求 会 对 服务 器 造成 压力 ， 所 以 使 用 时 
请 体贴 一 些 ”。 

完成 后 ， 单 击 Add to List 并 在 文本 框 中 单 击 Return， 然 后 你 应 该 能 够 单 击 Save。 它 将 
开始 运行 ， 完 成 之 后 ， 你 可 以 将 数据 下 载 为 CSV 文件 。 

接 下 来 ， 我 们 将 使 用 Jupyter 记事 本 来 检查 和 处 理 数据 。 首 先导 入 pandas 和 Python 正则 
表达 式 的 库 re。 我 们 还 要 设置 pandas 的 选项 来 加 宽 列 ， 以 便 我 们 可 以 更 好 地 看 清 数 气 。 


import pandas as pd 








import re 
pd.set option('display.max colwidth',200) 


现在 ， 我 们 将 加 载 数 据 。 


df = pd.read csv('/Users/alexcombs/Downloads/nscb.csv') 
df 


上 述 代码 生成 图 9-14 所 示 的 输出 。 








DRHE: 作者 的 意思 是 ， 不 要 在 短 时 间 内 抓 取 大 量 网 页 ， 否 则 会 对 www.notsocleverbot.com 产生 过 大 的 流量 压 
pa 
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Ti 
m Postinner link Postinner link link ERN Image 1 
value 


User: *walking^nCleverbot: *looks 
at you and winks* ;)nUser: O.O 
*walks faster^nCleverbot: 
*catches up with you and pins you 
against a wall'^nUser: *eyes 
widen* W-What do you want? 
\nCleverbot: ... 


Posted: 
http://www.notsocleverbot.com/index.php? | 2016- 
i-48277 04-18 

04:30:53 


http://www.notsocleverbot.com/images/thumbs . 


User: *Facepalm* You are so 
stupid, you know that, right? 
\nCleverbot: | cannot argue with 
you.MUser: So you admit your 
idiocyAnCleverbot: You're all and | 
am nothing. MnUser: 


Posted: 
http://www.notsocleverbot.com/index.php? | 2016- 
i-48275 04-16 

22:39:34 


32 http://www.notsocleverbot.com/images/thumbs . 
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由 于 我 们 只 对 第 一 列 的 对 话 数据 感 兴趣 ， 将 其 拆 解 出 来 。 


convo = df.iloc[:,0] 


>Q 


上 述 代 码 生 成 图 9-15 所 示 的 输出 。 


0 User: *walking*MnCleverbot: *looks at you and winks* ;)MnUser: O.O *walks faster*MnCleverbot: *catches up wi 
th you and pins you against a wall*MnUser: *eyes widen* W-What do you want?MnCleverbot: ... 

1 User: *Facepalm* You are so stupid, you know that, right? MnCleverbot: I cannot argue with you. MnUser: So you 
admit your idiocy.MnCleverbot: You're all and I am nothing. MnUser: Yess!!!MnCleverbot: ... 

2 Cleverbot: Well, my wife left 
me today.MnUser: Feels bad for you. MnCleverbot: Not really, I have an amazing boyfriend :). 

3 Cleverbot: *my dragongirl chest fills with dragon milk*.NnUser: WHAT THE ACTUAL FUC 


4 Cleverbot: He'll have to sit and watch them al 
l.MnUser: What the frick are you talking about.MnCleverbot: Something more pleasant than you! 

5 Cleverbot: Give me a riddle.MnUser: What has a head but no body . has a bed but never sleeps . runs but neve 
r walks.NnCleverbot: What? I don't know.MnUser: A river. MnCleverbot: A river is not a fl... 

6 User: I"m commander shepard.MnCleverbot: Really?MnUser: Yupp.MnCleverbot: That's nice. Can I meet your frien 
d?\nUser: Garrus or Tali.MnCleverbot: Garrus because he is more impressive. MnUser: Okay ... 
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从 图 9-15, 我 们 可 以 看 到 用 户 和 Cleverbot 之 间 的 交互 ， 以 及 对 话 的 启动 。 为 了 获取 我 
们 所 需 的 格式 ， 需 要 将 数据 解析 成 问题 和 答复 的 配对 。 我 们 不 一 定 关 心 谁 识 了 什么 ， 但 我 
们 关心 将 每 个 答复 和 问题 对 应 起 来 。 稍 后 我 们 将 理解 这 是 为 什么 。 现 在 让 我 们 在 文本 上 的 
行 一 些 正 则 表达 去。 


clist = [] 
def qa pairs(x): 
cpairs = re.findall(": (.*?)(?:$|Nn)", x) 
clist.extend(list(zip(cpairs, cpairs[1:]))) 
convo.map(qa pairs); 
convo frame = pd.Series(dict(clist)).to frame().reset index() 
convo frame.columns = ['q', 'a'] 


上 述 代码 将 产生 图 9-16 所 示 的 输出 。 
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"D " | cant beleieve i spelled now wrong" So now you are calling me silly? 


WTF *TAKES OFF SUNGLASSES MOTHER OF 
GOD* 
| am wearing leggings and a leotard, what are you 
"Darling so there you are, with that look on your face". wearing? 


m [emmumm. e T 


m [were rmemmens rap 
mo pe O 
22 [Fura ot iea t vour uay row vou om paene. [on aa you over row? Trat aa mire on yoa — 
mm ee 


: A l " | am not Bill Gates. | am Martin Levenius. But that 
If frown is shown then | will know that you are no dreamer". NE 
was obvious logic, it is tautological. 


图 9-16 
好 吧 ， 这 里 有 很 多 代码 。 刚 刚 发 生 了 什么 ?我 们 首先 创建 了 一 个 列表 来 保存 问题 和 和 丛 
复 的 元 组 。 然 后 我 们 通过 一 个 函数 来 切 分 对 话 ， 使 用 正则 表达 式 将 它们 变 为 匹配 的 对 。 
最 后 ， 我 们 将 列 标记 为 q 和 a， 并 将 所 有 的 数据 放 入 一 个 pandas 的 DataFrame。 
我 们 现在 将 应 用 一 点 算法 的 魔术 ， 为 用 户 的 输入 匹配 最 接近 的 问题 。 


from sklearn.feature extraction.text import TfidfVectorizer 








from sklearn.metrics.pairwise import cosine similarity 
vectorizer = TfidfVectorizer(ngram range-(1,3)) 


vec — vectorizer.fit transform(convo frame['q']) 


我 们 在 上 面 的 代码 中 所 做 的 是 ， 导 入 Tf£idfVectorization 库 和 余弦 相似 度 的 库 。 
然后 我 们 使 用 训练 数据 来 创建 tt-idf 窍 阵 。 现 在 可 以 使 用 这 个 来 转换 我 们 目 己 的 新 问题， 并 
测量 访问 题 与 训练 集中 现 有 问题 间 的 相似 度 。 


我 们 在 第 $ 章 详细 讨论 了 余弦 相似 度 和 ttidf 算法 ， 
所 以 如 果 你 想 了 解 它们 运作 的 细节 ， 请 参考 第 $ 章 。 





让 我 们 现在 获取 相似 度 分 数 。 


my q = vectorizer.transform(['Hi. My name is Alex.']) 
cs = cosine similarity(my q, vec) 

rs = pd.Series(cs[0]).sort values (ascending-0) 

top5 - rs.iloc[0:5] 

top5 


上 述 代码 生成 图 9-17 的 输出 。 
我 们 在 这 里 看 什么 ?这 里 列 出 了 和 我 提出 的 问题 最 接近 的 前 五 个 问题 ， 以 及 它们 之 间 
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的 余 弱 相似 度 。 左 边 是 索引 编号， 右边 是 余弦 相似 度 。 让 我 们 来 看 看 这 些 问题 。 
convo frame.iloc[top5.index]['q'] 


这 将 产生 图 9-18 所 示 的 输出 。 














.638891 - TT UE 
.537884 i my name is ever ot. 
Okay your name is Alex. 
531098 Hi my name is pat 
.528135 Hi my name is lune. 
.460475 My name is. 
图 9-17 图 9-18 

我 们 可 以 看 到 ， 没 有 一 个 问题 和 我 的 输入 是 完全 相同 的 ， 但 肯定 有 一 些 相似 之 处 。 

再 来 看 看 答复 。 

rsi = rs.index[0] 

rsi 


convo frame.iloc[rsi]['a'] 

上 述 代码 将 产生 图 9-19 所 示 的 输出 。 

好 吧 ， 我 们 的 机 器 人 似乎 已 经 表明 了 态度 。 让 我 们 再 进一步 。 
我 们 将 创建 一 个 方便 的 函数 ， 这 样 可 以 轻松 地 测试 一 系列 的 语句 。 


def get_response (q): 

my q = vectorizer.transform([q]) 

cs = cosine similarity(my q, vec) 

rs = pd.Series(cs[0]).sort values (ascending-0) 

rsi = rs.index[O0] 

returnconvo frame.iloc[rsi]['a'] 
get response('Yes, I am clearly more clever than you will ever be!') 


这 将 产生 图 9-20 所 示 的 输出 。 


'Are you clever or something. ' 
图 9-19 图 9-20 


显然 ， 我 们 创造 了 一 个 怪物 ， 所 以 继续 吧 。 

get response('You are a stupid machine. Why must I prove anything to you?') 
这 将 产生 图 9-21 所 示 的 输出 。 

我 很 享受 这 个 。 让 我 们 继续 前 进 。 


get response('My spirit animal is a menacing cat. What is yours?') 
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'Right you are.' 


图 9-21 图 9-22 
我 回答 说 : 
get response('I mean I didn't actually name it.') 
这 将 产生 图 9-23 的 输出 。 
继续 : 
get response('Do you have a name suggestion?') 


这 将 产生 图 9-24 所 示 的 输出 。 


"KAHHHHHHHN. Do YOU have a name. ' 


图 9-23 图 9-24 
我 回答 : 
get response('I think it might be a bit aggressive for a kitten') 
这 将 产生 图 9-25 所 示 的 输出 。 
我 试图 平 居 局 面 : 


get response('No need to involve the police.') 
这 将 产生 图 9-26 所 示 的 输出 。 
图 9-25 图 9-26 


最 后 : 


get response('And I you, Cleverbot') 
这 将 产生 图 9-27 所 示 的 输出 。 


显然 , 这 可 能 是 我 近期 最 好 的 对 话 之 一 了 : hisp 
人 和 真实 的 人 。 

现在 我 们 已 经 创建 了 这 个 基于 蛋糕 “的 智能 ， 这 里 要 设置 一 下 ， 以 便 我 们 可 以 通过 短 
信 的 方 却 与 其 聊天 。 

为 了 达到 这 个 目的 ， 我 们 还 需要 一 些 东 西 。 第 一 个 是 twilio 账户 。 他 们 将 提供 一 个 免 





"No. I'm Clevercake."l 





图 9-27 








QD 暗合 刚刚 出 现 的 “clevercake”。 
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费 的 账户 ， 让 我 们 发 送 和 接收 短信 ， 如 图 9-28 所 示 。 


中 


HEE TEE HHE - 


BUILD APPS THAT COMMUNICATE 
WITH EVERYONE IN THE WORLD 
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BLER EI http://www.twilio.com 的 网 页 ， 单 击 注册 一 个 免费 的 开发 者 API 密 钥 。 
你 会 设置 一 些 登 录 攒 据 ， 然 后 他 们 将 回 你 的 手机 及 送 短信 以 确认 你 的 号 码 。 设 置 完 成 后 ， 
VRELE LÆ Quickstart 文档 中 找到 详细 信息 。 请 确保 你 在 左上 角 的 下 拉 沫 单 中 选择 了 
Python， 如 图 9-29 所 示 。 





TWILIO DOCS Quickstart Tutorials API Reference Helper Libraries 


sess — PYTHON QUICKSTART: SENDING 
eee SMS AND MMS MESSAGES 


Messages 








Customize a Reply to 
Incoming Messages It's really easy to send an outgoing SMS using Twilio. To send an SMS, make an HTTP POST request 


Tracking Conversations to the Messages resource. 
Sending SMS During a Phone 
Call 
| POST https://api .twilio.com/2010-04-01/Accounts/AC123456abc/Messages 
Handle Incoming Calls 


Overview Our twilio-python helper library makes this extremely easy. Open a file called send. sms .py and 


Say a Message add the following lines: 
Greet Caller By Name 
Play MP3 for Caller send sms.py 


Connect Call to Second 


Person # Download the twilio-python library from http://twilio.com/docs/libraries 
— from twilio.rest import TwilioRestClient 
Record Caller's Voice 
. £ Find these values at SE ://twi lio. com/user/account 
Make Outgoing Calls account sid = "ACXXXXXXXXXXXXXXXXX" 
auth token = wyYYYYYYYYYYYYYYY YY 


oe client = TwilioRestClient(account sid, auth. token) 





从 Python 代码 发 送 消息 很 简单 ， 但 是 你 需要 请 求 一 个 twilio 的 号 码 。 在 代码 中 ， 你 将 
使 用 这 个 号 码 发 送 和 接收 消息 。 接 收 消 息 稍 微 有 点 复杂 ， 因 为 它 需要 你 运行 一 个 Web 服 务 
器 。 文 档 很 简洁 ， 所 以 设置 它 不 会 让 你 太 难 熬 。 你 需要 一 个 公共 Web 能 访问 的 Flask" 服 务 器 


GD 译 者 注 : Flask 是 一 个 使 用 Python 编写 的 轻 量 级 Web 应 用 框架 
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URL 地 址 ， 并 将 其 粘贴 到 你 管理 twilio 号 码 的 区 域 之 下 方 。 只 需 单 击 号 码 ， 它 就 会 带 你 到 粘 
贴 网 址 的 地 方 ， 如 图 9-30 所 示 。 


v Messaging View Messages Inbound | Outbound 


Configure with © URL TwiML App Messaging Service 


Request URL http:/some_public_facing_flask_url.com HTTP POST 





Fallback URL https://demo.twilio.com/welcome/sms/reply/ HTTP POST v 





图 9-30 


一 旦 这 些 都 设置 完成 ， 你 只 需要 确保 Flask Web 服务 器 启动 并 运行 。 这 里 ， 我 压缩 了 
所 有 的 代码 ， 可 以 用 于 你 的 Flask 应 用 程序 。 


from flask import Flask, request, redirect 
import twilio.twiml 
import pandas as pd 
import re 
from sklearn.feature extraction.text import TfidfVectorizer 
from sklearn.metrics.pairwise import cosine similarity 
app = Flask( (name ) 
PATH TO CSV - 'your/path/here.csv' 
df = pd.read csv(PATH TO CSV) 
convo - df.iloc[:,0] 
clist - [] 
def qa pairs(x): 
cpairs = re.findall(": (.*?)(?:$|Nn)", x) 
clist.extend(list(zip(cpairs, cpairs[1:]))) 
convo.map(qa pairs); 
convo frame = pd.Series(dict(clist)).to frame().reset index() 
convo frame.columns = ['q', 'a'] 
vectorizer = TfidfVectorizer(ngram range-(1,3)) 
vec — vectorizer.fit transform(convo frame['q']) 
QGapp.route("/", methods-['GET', 'POST']) 
def get response(): 
input str = request.values.get('Body!') 
def get response (q): 
my q = vectorizer.transform([input str]) 
cs = cosine similarity (my q, vec) 


rs pd.Series(cs[0]).sort values (ascending-0) 
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rsi = rs.index[O0] 
return convo frame.iloc[rsi]['a'] 
resp = twilio.twiml.Response() 
if input str: 
resp.message(get response(input str)) 
return str (resp) 
else: 
resp.message('Something bad happened here.') 
return str (resp) 


看 起 来 有 很 多 的 事情 ， 但 实际 上 我 们 使 用 了 和 之 前 相同 的 代码 ， 只 是 现在 我 们 抓 取 了 
twilio 发 送 的 POST 数 据 一 一 消息 正文 一 而 不 是 之 前 手动 输入 get request 函数 的 数据 。 

如 末 所 有 都 按 计 划 进 行 ， 你 应 该 已 经 拥有 了 目 己 的 搞怪 好 友 ， 你 可 以 随时 间 它 发 送 短 
消息 ， 还 有 什么 比 这 更 棒 的 ? 











9.5 hA 


在 本 半 中 ， 我 们 对 聊天 机 故人 进行 了 全 面 的 探讨 。 很 明显 ， 我 们 是 这 类 应 用 程序 的 弄 
漳 儿 。 项 望 本 间 油 励 了 人 你， 创建 目 己 的 机 各 人 ， 但 如 末 没 有 ， 人 至 少 你 对 这 些 应 用 的 原理 ， 
以 及 它们 如 何 塑 造 我 们 的 未 来 ， 有 了 更 加 丰满 的 理解 。 


我 会 让 应 用 程序 说 出 结束 语 。 


get response("Say goodbye, Clevercake") 


这 将 产生 图 9-31 的 输出 。 
Goodbye. ' 


图 9-31 


在 下 一 章 中 ， 我 们 将 进入 推荐 引擎 的 世界 。 











第 10 € 
构建 推荐 引擎 


像 许多 事情 一 样 ， 访 话题 源 于 肖 形 和 伪 便 的 鸡尾酒 。 这 是 一 个 星期 入， 两 个 年 轻 人 有 晚 
上 依旧 没有 和 女生 约会 。 他 们 化 在 一 起 喝 了 很 多 酒 ， 相 互 分 圣 了 很 多 莫 伤 的 事情 ， 浙 渐 地 
这 两 个 哈佛 大 一 新 生 开始 思考 一 个 问题 。 如 果 不 是 依 徘 随机 的 机 会 ， 而 是 使 用 一 个 电脑 算 
法 来 及 现 合适 的 女孩 ， 这 会 怎么 样 ? 

他 们 筑 得 匹配 人 的 关键 是 创建 一 组 问题 。 每 个 人 都 会 在 头 几 次 吓人 钦 的 约会 上 寻找 一 些 
言 思 ， 而 这 组 问题 融 是 为 大 家 提供 这 样 的 信息 。 使 用 这 些 问卷 进行 候选 人 的 匹配 ， 那 么 没 
有 任何 希望 的 约会 束 说 消灭 在 明 牙 之 中 。 这 个 过 程 将 是 相当 有 效 的 。 

想法 是 加 波士顿 和 全 国 的 大 学 生 推 销 他们 的 新 服务 。 与 上 ， 他 们 融 这 么 做 了 。 


不 久之 后 ， 他 们 建立 的 数字 配对 服务 取得 了 巨大 的 成 功 。 它 受到 全 国 媒 体 的 关注 ， 并 
在 后 面 的 几 年 内 生成 了 数 万 的 匹配 。 

事实 上 ， 这 家 公司 是 如 此 的 成 功 ， 一 家 更 大 的 公司 为 了 使 用 其 技术， 最 终 将 其 收购 。 

如 和 你 认为 我 可 能 在 谈论 OkCupid， 那 么 你 会 错 了 一 一 差不多 有 40 FIRE. REITH 
的 公司 是 在 1965 年 开始 的 一 一 当时 ， 匹 配 的 计算 是 通过 BM 1401 大 型 机 上 的 穿孔 卡 来 实 
现 的 。 它 花 了 三 天 时 间 来 运行 计算 。 

奇怪 的 是 ，OkCupid 和 1965 ERTZ, Compatibility Research 公司 , 之 间 是 有 关联 的 。 
Compatibility Research 的 联合 创始 人 是 Jeff Tarr， 他 的 女儿 Jennifer Tarr 是 OkCupid 联合 创 
1H A Chris Coyne 的 妻子 。 世 界 真 的 很 小 。 

为 什么 这 些 与 构建 推荐 引擎 的 内 容 相 关 ? 这 是 因为 该 系统 很 可 能 是 第 一 个 推 存 引擎 。 
虽然 大 多 数 人 认为 推荐 引 敬 作为 工具 ， 是 用 于 寻找 和 他 们 豆 好 紧密 相关 的 产品 、 首 乐 和 电 
影 ， 但 最 原始 的 应 用 是 找到 潜在 的 伴侣 。 关 于 这 些 系 统 如 何 工 作 ， 它 提供 了 一 个 很 好 的 参 
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Aq. 
在 本 章 中 ， 我 们 将 探讨 不 同类 型 的 推荐 系统 。 我 们 将 了 解 它们 的 商业 化 实现 ， 以 及 内 
部 的 工作 原理 。 最 后 ， 我 们 会 实现 自己 的 推荐 引擎 ， 找 到 适合 的 GitHub 资料 库 。 
本 章 将 讨论 以 下 主题 。 
。 协 同 过 滤 。 
。 基 于 内 容 的 过 滤 。 
edi. 


。 构 建 推荐 引擎 。 
1 0. 1 协同 过 滤 


在 2012 年 初 ,， 爆 出 了 这 样 一 则 新 闻 故 事 : 一 位 男子 进入 一 家 Target" 商店 , 挥舞 着 手中 
的 一 登 优 惠 若 ， 这 些 都 是 Target 邮 寄 给 他 还 在 访 高 中 的 女儿 的 。 他 来 的 目的 是 谴 贡 经理， 因 
为 这 伍 优 惠 券 都 是 诸如 竖 儿 服 闻 、 配 方 奶 和 幼儿 家 有 具 这 类 商品 专 孚 的。 

听 到 顾客 的 投诉 ， 经 理 再 三 道 菊 。 他 感 党 很 烛 糕 ， 想 在 几 天 后 通过 电话 跟 进 ， 解 释 这 
是 怎么 回 事 。 这 个 时 候 ， 反 而 是 这 位 父 杀 在 电话 里 进行 了 道 菊 。 看 来 他 的 女儿 确实 是 怀孕 
了 。 她 的 购物 习惯 泄露 了 她 的 这 个 秘密 。 

出 卖 这 位 文生 的 算法 很 可 能 是 ， 至 少 部 分 是 ， 基 于 协同 过 涛 。 

那么 ， 什 么 是 协同 过 小 ? 

协同 过 小 (collaborative filtering) 是 基于 这 样 的 想法 ， 在 荣 处 总 有 和 你 趣味 相投 的 人 。 
假设 你 和 趣味 相投 的 人 们 评价 方式 都 非 利 类 似 ， 而 且 你 们 都 已 经 以 这 种 方式 评价 了 一 组 特 
定 的 项 目 ， 此 外 ， 你 们 每 个 人 对 其 他 人 尚未 评价 的 项 目 也 有 过 评价 。 正 如 已 经 假设 的 那样 ， 
你 们 的 口味 是 类 似 的 ， 因 此 可 以 从 趣味 相投 的 人 们 那里 ， 提 取 有 其 有 很 蜗 评 分 而 你 尚未 评价 
的 项 目 ， 作 为 给 你 的 推荐 ， 反 之 亦 然 。 在 某 种 程度 上 ， 这 点 和 数字 化 配对 非常 相像 ， 但 结 
果 是 你 喜欢 的 歌曲 或 产品 ， 而 不 古 与 异性 的 约会 。 

对 于 怀孕 的 高 中 生 这 个 案例 ， 当 她 购买 了 无 味 的 乳液 、 棉 球 和 维生素 补充 剂 “ 之 后 ， 

















0 























QÉ: Target 是 美国 知名 的 零售 连锁 店 。 
包 译 者 注 : 这 些 是 刚刚 怀孕 的 母 杀 会 经 常 购买 的 。 
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她 可 能 就 和 那些 稍 后 继续 购买 婴儿 床 和 尿布 的 人 匹配 上 了 。 
10.1.1 基于 用 户 的 过 滤 


让 我 们 通过 一 个 例子 来 看 看 实践 中 这 是 如 何 运 作 的 。 


我 们 将 从 被 称 为 效用 窍 阵 (utility matrx) 的 东西 开始 。 它 和 词 条 -文档 矩阵 相 类 似 ， 不 
过 这 里 我 们 表示 的 是 产品 和 有 用户， 而 不 再 是 词 条 和 文档 。 























这 里 , 我 们 假说 有 顾客 A 到 D， 以 及 他 们 所 评分 的 一 组 产品 , 评分 从 0 到 5, Wk 10-1 
所 示 。 
表 10-1 


Snarky'sPo | SoSoSmooth Duffly | BetterTap | XXLargeLivin' | SnowyCott | Disposos'Di 
tato AM Lotion Beer Water Football J E ANS onBalls NEN 











之 前 我 们 看 到 ， 当 想 要 俘 找 类 似 的 项 目 时 ， 可 以 使 用 余弦 相似 度 。 让 我 们 在 这 里 试 试 。 
我 们 将 为 用 户 A 友 现 最 相似 的 其 他 顾客 。 由 于 这 里 的 疝 量 古稀 玻 的 ， 包 含 了 许多 未 评分 的 
项 目 ， 我 们 将 在 这 些 缺 失 的 地 方 输入 一 些 默 认 值 。 这 里 赴 入 0。 我 们 从 用 户 A MHE BE 
比较 开始 。 


fromsklearn.metrics.pairwise import cosine similarity 








cosine similarity (np.array([4,0,5,3,5,0,0]).reshape(1,-1),N 
np.array([0,4,0,4,0,5,0]).reshape(1,-1)) 


上 述 代 码 生 成 图 10-1 的 输出 。 
我 们 可 以 看 到 ， 这 两 者 没有 很 高 的 相似 性 ， 这 是 有 道理 的 ， 因 为 他 们 没有 多 少 共 同 的 评分 。 
现在 来 看 看 用 户 C 与 用 户 A 的 比较 。 


cosine similarity(np.array ([4,0,5,3,5,0,0]) .reshape(1,-1),\ 
np.array([2,0,2,0,1,0,0]).reshape(1,-1)) 


上 述 代 码 生 成 图 10-2 的 输出 。 


array([[ 0.183332393]])larray([[ 0.88527041]]) 





图 10-1 图 10-2 
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这 里 ， 我 们 看 到 他 们 有 很 高 的 相似 度 〈 记 住 1 是 完美 的 相似 度 )， 尽 管 他 们 对 同样 产品 
的 评价 有 所 不 同 。 为 什么 得 到 了 这 样 的 结果 ? “问题 在 于 我 们 对 没有 评分 的 产品 , 选择 使 用 
0 分。 它 表示 强烈 的 〈 负 的 ) 一 致 性 。 在 这 种 情况 下 ，0 不 是 中 性 的 。 


那么 ， 如 何 解决 这 个 问题 ? 


我 们 可 以 做 的 是 重新 生成 每 位 用 户 的 评分 ， 并 使 得 平均 分 变 为 0 或 中 性 ， 而 不 是 为 缺失 值 
简单 地 使 用 0。 我们 拿 出 每 位 用 户 的 评分 ， 将 其 减 去 该 用 户 所 有 打分 的 平均 值 。 例 如 ， 对 于 用 户 
A,， 他 打分 的 平均 值 为 17/4， 或 4.25。 然 后 我 们 从 用 户 A 提供 的 每 个 蛙 独 评分 中 减 去 这 个 值 。 

















一 旦 完成 ， 我 们 继续 找到 其 他 用 户 的 平均 值 ， 从 他 们 的 每 个 评分 中 减 去 该 均值 ， 直 到 
对 每 位 用 户 完 成 该 项 操作 。 

这 个 过 程 后 将 产生 表 10-2。 请 注意 ， 每 行 的 用 户 评 分 总 和 为 0 (这 里 忽略 四 舍 五 入 种 
来 的 问题 )。 

表 10-2 


Snarky's SoSo Duffly | BetterTap | XXLargeLivin' | SnowyCot | Disposos' 
Potato "3m SmoothLotion Beer Water Football aT tonBalls EE 





让 我 们 在 新 的 数据 集 上 演 试 余弦 相似 上 度 。 再 次 将 用 户 A 和 用 户 B、C 进行 比较 。 
首先 ，A 和 B 之 间 的 比较 如 下 。 


cosine similarity (np.array([-.25,0,.75,-1.25,.75,0,0]) N 
.reshape (1,-1),WN 

np.array([0,-.33,0,-.33,0,.66,0])*N 

.reshape (1,-1)) 


上 述 代 码 生 成 图 10-3 的 输出 。 
现在 ， 我 们 试 试 看 A C. 


cosine similarity (np.array([-.25,0,.75,-1.25,.75,0,0]) N 
.reshape(1,-1),WN 














QFE: 作者 的 意思 是 ，A 和 C 对 相同 项 目的 评分 有 较 大 兰 距 ， 他 们 不 应 该 有 如 此 高 的 相似 度 
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np.array([.33,0,.33,0,-.66,0,0])N 
.reshape(1,-1)) 


上 述 代 码 生 成 图 10-4 的 输出 。 


array([[ 0.30772873]])|array([[-0.24618298]]) 


图 10-3 图 10-4 





我 们 可 以 看 到 AI B 之 间 的 相似 度 略 有 增加 , rf A 和 C 之 间 的 相似 度 显 车 下 降 。 这 
正 是 我 们 所 希望 的 。 

这 种 中 心 化 的 过 程 除 了 帮助 我 们 处 理 缺失 值 之 外 ， 还 有 其 他 好 处 ， 例 如 帮助 我 们 处 理 
不 同 严 苛 程度 的 打分 者 ， 现 在 每 位 打分 者 的 平均 分 都 是 0 了 。 注 意 ， 这 个 公式 等 价 于 Pearson 
相关 系数 ， 取 值 落 在 -1 和 1 之 间 。 

让 我 们 现在 采用 这 个 框架 ,使 用 它 来 预测 产品 的 评分 。 我们 将 示例 限制 为 三 位 用 户 X. 
Y 和 ZZ， 我 们 将 预测 X 尚未 评价 ， 而 和 XX 非常 相似 的 Y 和 2Z 已 经 评 过 的 产品 ， 对 于 X 而 


言 会 得 到 多 少 分 。 








我 们 先 从 每 位 用 户 的 基本 评分 开始 ， 如 表 10-3 所 示 。 


表 10-3 





表 10-4 


SoSo SnowyCo | Disposos' 
SmoothLotion ttonBalls Diapers 


0.375 0-375 
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现在 ， 我 们 想 知 道 用 户 X 会 给 Disposos' Diapers 打 多 少 分 。 我 们 可 以 根据 用 户 评分 中 
心 化 之 后 的 余弦 相似 度 获 得 权重 ， 并 通过 这 些 权 重 对 用 户 Y 和 用 户 Z 的 评分 进行 加 权 计 算 。 
让 我 们 先 得 到 用 户 Y 和 X 的 相似 度 。 


user x = [0,.33,0,-.66,0,33,0] 
user y = [0,0,0,-1,0,.5,.5] 
cosine similarity (np.array (user x) .reshape(1,-1),\ 
np.array(user y) .reshape (1,-1)) 


上 述 代 码 生成 图 10-5 的 输出 。 
现在 计算 用 户 Z 和 X 的 相似 度 。 


user x = [0,.33,0,-.66,0,33,0] 
user z = [0,-.125,0,-.625,0,.375,.375] 





cosine similarity (np.array(user x).reshape(1,-1),N 
np.array(user z).reshape(1,-1)) 


上 述 代 码 生 成 图 10-6 的 输出 。 


array([[ 0.42447212]])|array([[ 0.46571861]]) 


图 10-5 图 10-6 


因此 ， 我 们 现在 有 一 个 用 户 X 和 用 户 Y 之 间 的 相似 度 (0.42447212)， 以 及 用 户 A 和 
用 户 乙 之 间 的 相似 度 〈0.46571861 )。 

将 它们 整合 起 来 , 我 们 通过 每 位 用 户 与 X 之 间 的 相似 度 , 对 每 位 用 户 的 评分 进行 加 权 ， 
然后 除 以 总 相似 度 。 

(0.42447212 x (4) +0.46571861 x (4.5)) / (0.42447212 +0.46571861) = 4.26 

我 们 可 以 看 到 用 户 X 对 Disposos' Diapers 的 预 估 评 分 为 4.26〔( 不 低 啊 ， 最 好 发 张 优 
LE l)o 


10.1.2 基于 项 目的 过 小 
到 目前 为 止 ， 我 们 只 了 解 了 基于 用 户 的 协同 过 滤 ， 但 还 有 一 个 可 用 的 方法 。 在 实践 中 ， 


这 种 方法 远 优 于 基于 用 户 的 过 滤 “， 它 被 称 为 基于 项 目的 过 滤 。 这 是 它 的 工作 原理 ， 每 个 
被 评分 项 目 与 所 有 其 他 项 目 相 比较 ， 找 到 最 相似 的 项 ， 而 不 是 根据 评分 历史 将 每 位 用 户 和 























DŽ: 这 点 不 能 一 概 而 论 ， 要 根据 具体 的 应 用 场景 而 言 。 
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所 有 其 他 用 户 相 匹配 。 同 时 ， 也 是 使 用 中 心 化 余弦 相似 度 。 
让 我 们 来 看 看 它 是 如 何 工作 的 。 
再 次 ， 我 们 有 一 个 效用 窍 阵 。 这 一 次 ， 我 们 将 看 看 用 户 对 歌曲 的 评分 。 每 一 列 是 一 位 














用 户 ， 而 每 一 行 是 一 首 歌曲 ， 如 表 10-5 所 示 。 


表 10-5 











现在 ， 假 设 我 们 想 知道 U3 对 于 S5 的 评分 。 这 里 ， 我 们 会 根据 用 户 对 歌曲 的 评分 来 寻 
找 闫 似 的 歌曲 ， 而 不 是 寻找 类 似 的 用 户 。 

让 我 们 来 看 一 个 例子 。 

首先 ， 我 们 从 每 行 歌曲 的 中 心 化 开始 ， 并 计算 其 他 每 首 歌曲 和 目标 歌曲 〈 即 SS. 的 余 
IZAH, ZILK 10-6. 


表 10-6 











你 可 以 看 到 ， 最 右边 的 列 是 其 他 每 行 相对 行 SS 的 中 心 化 余弦 相似 度 。 





接 下 来 需要 选择 一 个 数字 ，k， 这 是 我 们 为 预测 U3 对 歌曲 的 评分 ， 所 要 使 用 的 最 近邻 
居 数 量 。 在 这 个 简单 的 例子 中 ， 我 们 使 用 K= 2。 
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我 们 可 以 看 到 对 于 歌曲 SS$，S1 和 S3 是 和 它 最 相似 的 ， 所 以 我 们 将 使 用 U3 对 这 两 首 
歌 的 评分 (分 别 为 4 和 5)。 


现在 让 我 们 计算 评分 

人 

因此 ， 通 过 基于 项 目的 协同 过 滤 ， 我 们 可 以 看 到 U3 很 可 能 给 S5 打出 高 分 4.42。 
之 前 ， 我 提 到 基于 用 户 的 过 派 不 如 基于 项 目的 过 小 有 效 。 这 是 为 什么 呢 ? 


很 有 可 能 ， 你 的 朋 肥 和 你 有 共同 的 爱好 ， 但 是 你 们 每 个 人 都 有 目 己 喜欢 ， 而 别人 至 无 
兴趣 的 领域 。 


例如 , 也 许 你 们 都 喜欢 “权力 的 游戏 ”这 部 电视 剧 , 但 你 的 朋友 也 喜欢 Norwegian death 
metal 重金 属 乐 队 。 而 你 死 也 不 愿意 听 这 种 音乐 。 如 果 你 们 在 许多 方面 类 似 一 -除了 death 
metal 一 一 那么 基于 用 户 的 推荐 ， 你 仍然 会 看 到 很 多 关于 乐队 的 推荐 ， 其 名 称 都 包括 火焰 、 
和 芽 头 、 头 上 骨 和 大 头 棒 这 样 的 字眼 。 使 用 基于 项 目的 过 滤 ， 很 可 能 会 避免 让 你 看 到 这 些 推荐 。 

让 我 们 用 快速 的 代码 示例 ， 来 总 结 这 个 问题 的 讨论 。 

首先 ， 我 们 将 创建 DataFrame 示例 。 


import pandas as pd 














import numpy as np 
from sklearn.metrics.pairwise import cosine similarity 


df = pd.DataFrame(('U1':[2 , None, 1, None, 3], 'U2': [None, 3, None, 4, 
None], \ 

'U3': [4, None, 5, 4, None], 'U4': [None, 3, None, 4, 

None], 'U5': [5, None, 4, None, 5])) 


df.index = ['S1', 'S2', 'S3', 'S4', 'S5'] 
df 
上 述 代 人 码 生 成 图 10-7 的 输出 。 


— M Eb, CAERA AA H B E43 avan ao fao [a0 [nan 
阵 。 对 于 给 定 的 项 目 和 用 户 ， 该 函数 将 返回 基于 协同 过 滤 的 预  189]90 |NaNjNaN|NaN|so_ 


测评 分 。 图 10-7 





def get sim(ratings, target user, target item, k-2): 
centered ratings - ratings.apply(lambda x: x - x.mean(), axis-1) 
csim list - [] 
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for i in centered ratings.index: 

csim list.append(cosine similarity (np.nan to num(centered ratings.loc[i,:]. 
values).reshape(1, -1), 
np.nan to num(centered ratings.loc[target item,:]).reshape(1, -1)).item()) 
new ratings = pd.DataFrame(('similarity': csim list, 'rating': 
ratings[target user]}, index-ratings.index) 

top = new ratings.dropna().sort values('similarity', 
ascending-False)[:k].copy() 

top['multiple'] = top['rating'] * top['similarity'] 

result - top['multiple'].sum()/top['similarity'].sum() 

return result 


现在 可 以 传 入 我 们 的 值 ， 并 获得 用 户 对 项 目的 预测 评分 。 

get sim(df, 'U3', 'S5', 2) 

上 述 代码 生成 图 10-8 的 输出 。 

我 们 可 以 看 到 这 与 之 前 的 分 析 相 符 。 

到 目前 为 止 ， 我 们 在 进行 比较 时 ， 将 用 户 和 项 目 作 为 整个 的 实体 ， 但 是 现在 ， 让 我 们 
继续 了 解 另 一 种 方法 ， 它 将 我 们 的 用 户 和 项 目 分 解 为 所 谓 的 特征 集合 。 


10.2 基于 内 容 的 过 滤 


4.423232002361576 


图 10-8 











作为 一 个 音乐 家 ，Tim Westergren 花 了 几 年 时 间 倾 昕 其 他 有 天 赋 的 首 乐 家 的 作品 ， 想 知 
道 为 什么 他 们 永远 不 能 拔尖 。 他 们 的 首 乐 很 好 ， 和 你 在 电台 收听 到 的 那些 一 样 好 。 然 而 ， 
不 知 何故 ， 他 们 从 来 没有 大 的 突破 。 他 想 ， 一 定 是 因为 他 们 的 音乐 没有 在 足够 的 、 合 适 的 
人 们 面前 展示 。 

Tim 最 终 退 出 了 首 乐 家 的 工作 ， 开 始 从 事 电影 背景 首 乐 的 作曲 。 在 那里 ， 他 开始 思考 
每 一 块 音 乐 自己 独特 的 结构 或 DNA， 并 可 以 将 其 分 解 为 不 同 的 组 成 部 分 。 

思考 一 番 之 后 ， 他 开始 考虑 围绕 这 个 想法 创建 一 家 公司 ， 建 立 一 系列 音乐 的 基因 组 。 
他 的 一 位 朋友 曾经 创建 并 出 售 了 一 家 公司 ，Tim 让 他 来 运作 这 个 想法 。Tim 的 朋友 喜欢 他 
的 想法 ， 并 开始 帮助 他 写 一 个 商业 计划 ， 并 为 该 项 目 收集 了 首 轮 融 资 。 行 动 开 始 了 。 

在 接 下 来 的 几 年 里 , 他 们 雇用 了 一 小 群 音乐 家 , 对 上 百 万 首 首 乐 细致 地 编写 了 几乎 400 
个 不 同 的 特征 ， 每 个 特征 从 0 到 5 进行 打分 一 -所 有 都 是 通过 手 ， 或 者 说 是 通过 耳 东 进行 
的 。 每 首 3 到 4 分 钟 长 的 歌曲 需要 几乎 半 小 时 的 评级 。 

这 些 特征 包括 如 此 的 参数 ; 如 领唱 歌手 的 声音 有 多 么 的 沉重 ， 或 节 委 是 每 分 钟 多 少 担 。 
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他 们 花费 了 近 一 年 的 时 间 完 成 了 前 个 原型 。 它 完全 使 用 Excel 中 的 VBA KHE, 4 f 25 
多 4 分 钟 才 返 回 一 次 推荐 结果 。 但 是 ， 最 后 ， 它 成 功 了 ， 运 作 得 非常 好 。 

我 们 现在 知道 这 家 公司 就 是 Pandora Music， 你 很 可 能 已 经 听 说 过 或 使 用 过 其 产品 ， 
为 每 天 它 有 来 目 世界 各 地 数 百 万 的 用 户 。 坚 无 疑问 ， 它 是 基于 内 容 过 滤 的 成 功 范 例 。 

在 基于 内 容 的 过 滤 中 ， 不 再 将 每 首 歌曲 视 为 一 个 不 可 分 割 的 单位 ， 而 是 将 它 变 成 特征 
问 量 ， 然 后 承 可 以 使 用 我 们 的 老 朋 友人 余弦 相似 上 度 进 行 比 较 。 

不 仅 歌曲 可 以 被 分 解 成 为 特征 同 量 ， 听 众 也 可 以 被 转化 为 特征 回 量 。 上 听众 的 品味 描述 
成 为 了 空间 中 的 回 量 ， 使 我 们 可 以 测量 他 们 的 品味 描述 和 歌曲 本 和 刁 之 间 的 相似 程度 。 

对 于 Tim Westergren 来 说 ， 这 是 神奇 的 ， 因 为 不 像 其 他 推荐 引擎 依赖 于 音乐 的 人 气 ， 
这 个 系统 的 推荐 是 基于 固有 的 结构 相似 性 。 也 许 有 人 从 来 没有 听 过 歌曲 X, fB an SR fi] E 
欢歌 曲 Y， 那 么 他 们 应 该 喜欢 歌曲 X， 因 为 这 两 痛 歌 在 基因 上 是 几乎 相同 的 。 这 就 是 基于 
内 容 的 过 滤 。 
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我 们 已 经 学 习 了 推荐 系统 的 两 种 主要 形式 。 但 是 ， 需 要 注意 的 是 ， 在 任何 大 规模 生产 
环境 中 ， 推 荐 引擎 可 能 同时 利用 这 两 项 技术 。 这 被 称 为 混合 系统 ， 人 们 喜欢 混合 系统 的 原 
因 是 ， 它 有 助 于 消除 使 用 单一 系统 时 可 能 存在 的 缺点 。 这 两 个 系统 在 一 起 ， 创 建 了 更 强大 
的 解决 方案 。 

让 我 们 检查 每 种 类 型 的 利 刺 

协同 过 滤 的 优点 如 下 。 

。 没 有 必要 手动 创建 特征 。 

协同 过 滤 的 缺点 如 下 。 

如果 没有 大 量 的 项 目 和 用 户 ， 它 不 能 正常 工作 。 

。 当 项 目 数量 远 远 超过 可 能 被 购买 的 数量 时 "， 效 用 矩阵 会 有 稀 玻 性 。 














@ 译 者 注 ， 推荐 引擎 一 般 用 于 电子 商务 ， 所 以 效用 矩阵 里 的 评分 通常 代表 购买 。 在 其 他 应 用 场景 中 ，“ 被 购买 ” 
等 同 于 “被 评分 ”。 
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基于 内 容 的 过 滤 的 优点 如 下 。 

ec mA. 

基于 内 容 的 过 滤 的 缺点 如 下 。 

e 定 义 正 确 的 特征 可 能 是 一 个 挑战 。 

。 缺 乏 “ 意 外 的 惊喜 ””。 

当 一 家 公司 缺乏 大 量 的 用 户 群 ,基于 内 容 的 过 小 是 更 好 的 选择 , 但 是 随 看 公司 的 增长 ， 
加 入 协同 过 滤 可 以 帮助 我 们 为 用 户 提 供 更 多 的 “ 惊 辟 ”。 

现在 你 已 经 熟悉 推荐 引擎 的 类 型 和 内 部 工作 原理 了 ， 让 我 们 开始 构建 目 己 的 引擎 吧 。 
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我 喜欢 的 一 件 事 是 偶遇 一 个 非常 有 用 的 GitHub 资源 库 。 有 非常 多 的 资源 库 ， 包 括 人 为 
管理 的 机 器 学 习 教 程 ， 几 十 行使 用 ElasticSearch 的 代码 包 等 等 。 麻 烦 的 是 ， 找 到 这 些 库 远 
比 想象 的 困难 。 笠 运 的 是 ， 我 们 现在 恒 得 利用 GitHub 的 API， 在 一 定 程度 上 帮助 我 们 发 现 
这 些 代 码 的 珍宝 。 

我 们 将 使 用 GitHub API， 创 建 基 于 协同 过 小 的 推荐 引擎 。 这 个 计划 是 获得 所 有 我 已 经 
加 上 了 星 扎 的 资料 库 ， 然 后 得 到 这 些 库 的 全 部 创作 者 。 然 后 再 获取 这 些 作 者 添加 过 星 号 的 
所 有 资料 库 。 一 旦 完成 ， 我 们 可 以 比较 已 加 星 标 的 资料 库 ， 找 到 和 我 最 相似 的 用 户 《 如 果 
你 上 自己 也 运行 GitHub 的 资料 库 ， 我 建议 查找 和 你 最 相似 的 用 户 )。 一 旦 发 现 了 最 相似 的 
GitHub HF, 我们 可 以 使 用 他 们 所 加 星 的 〈 而 我 没有 加 过 星 号 的 ) 资料 库 来 生成 一 组 推荐 。 


让 我 们 开始 吧 。 背 和 完 ， 我 们 将 导入 需要 的 库 。 


import pandas as pd 
import numpy as np 
import requests 
import json 


现在 ,你 需要 开 立 一 个 GitHub 账户 ， 并 为 一 些 资 料 库 打上 星 写 ,但 你 不 十 要 注册 开 友 
人 员 项 目 。 你 可 以 从 个 人 资料 中 获取 授权 令 牌 ， 它 允许 你 使 用 API。 你 也 可 以 在 代码 中 使 
用 它 ， 但 其 限制 相当 严格 ， 对 于 我 们 的 示例 用 处 不 大 。 



































OFRE: 推荐 引擎 有 一 个 重要 的 评估 指标 是 能 售 为 用 户 带 来 意外 的 惊喜 ， 为 其 推荐 他 们 疫 有 想到 ， 但 确实 豆 
欢 的 物品 。 
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为 了 创建 用 于 API Hj 9 HB. iiw 问 以 下 URL 
https://github.com/settings/tokens。 在 这 里 ， 你 将 在 右上 角 看 到 一 个 按钮 ， 如 
图 10-9 所 示 。 





Personal access tokens Generate new token 


Tokens you have generated that can be used to access the GitHub API. 





图 10-9 


你 需要 单 击 Generate new token 按钮 。 一 旦 完成 ， 你 需要 将 提供 的 令 牌 复制 到 以 下 代码 
中 。 请 确保 这 两 者 都 包含 于 引号 中 。 


myun = YOUR GITHUB HANDLE 
mypw = YOUR PERSONAL TOKEN 


现在 ， 我 们 将 创建 一 个 函数 ， 它 将 拉 取 你 已 加 星 标 的 每 个 资料 库 的 名 称 。 


my starred repos = [] 
def get starred by me(): 





resp list - [] 

last resp - '' 

first url to get - 'https://api.github.com/user/starred' 
first url resp - requests.get(first url to get, auth- (myun,mypw)) 
last resp - first url resp 

resp list.append(json.loads(first url resp.text)) 


while last resp.links.get('next'): 
next url to get - last resp.links['next']['url'] 
next url resp - requests.get(next url to get, auth- (myun,mypw)) 
last resp - next url resp 
resp list.append(json.loads(next url resp.text)) 


for i in resp list: 
for j in i: 
msr — j['html url'] 
my starred repos.append (msr) 
这 里 有 很 多 操作 ， 但 实质 上 ， 我 们 就 是 查询 API 以 获取 上 自己 加 过 星 标的 资料 库 。GitHub 
使 用 分 页 ， 而 不 是 在 一 次 调用 中 返回 所 有 结果 。 因 此 ， 我 们 需要 检查 从 每 个 啊 应 返回 
的 .1inks。 只 要 有 下 一 个 链接 可 以 调用 ， 我 们 束 继 续 这 样 做 。 


接 下 来 ， 我 们 只 需要 调用 创建 的 函数 。 


get starred by me() 
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然后 ， 我 们 可 以 看 到 已 加 星 标 资料 库 的 完整 列表 。 
my starred repos 


此 代码 将 产生 类 似 于 图 10-10 的 输出 。 





://github.com/pydata/pandas', 
://github.com/ipython/ipywidgets', 
://github.com/tweepy/tweepy', 
://github.com/matplotlib/matplotlib', 
://github.com/d3/d3', 


://github.com/JohnLangford/vowpal wabbit', 
://github.com/tensorflow/tensorflow', 
://github.com/scikit-learn/scikit-learn', 
://github.com/chncyhn/flappybird-qlearning-bot', 
://github.com/josephmisiti/awesome-machine-learning', 
://github.com/vinta/awesome-python', 





图 10-10 


接 下 来 ， 我 们 需要 解析 每 个 已 加 星 标 资 料 库 的 用 户 名 ， 这 样 束 可 以 检索 他 们 曾经 标记 
的 库 。 


my starred users = [] ['pydata', 
for ln in my starred repos: ipython', 
right split = ln.split('.com/')[1] tweepy', 
T f . : 'matplotlib', 
starred usr - right split.split('/')[0] 'd3', 


my starred users.append(starred usr) 'JohnLangford', 
'tensorflow', 
'Scikit-learn', 
'chncyhn', 


上 述 代 码 生 成 图 10-11 的 输出 。 'josephmisiti', 


'vinta', 


my starred users 


'yawitzd', 


现在 ， 我 们 已 经 获得 了 所 有 加 星 标 资料 库 的 作者 ， 下 面 需要 'ujjwalkarn', 











检索 他 们 所 加 标的 库 ， 以 下 函数 将 会 实现 这 一 点 ， m 


starred repos = {k:[] for k inset(my starred users)] 

def get starred by user(user name): 
starred resp list - [] 
last resp - '' 

first url to get = 'https://api.github.com/users/'* user name *'/starred' 
first url resp - requests.get(first url to get, auth- (myun,mypw)) 
last resp - first url resp 

starred resp list.append(json.loads(first url resp.text)) 


while last resp.links.get('next'): 
next url to get - last resp.links['next']['url'] 
next url resp - requests.get(next url to get, auth- (myun,mypw)) 
last resp - next url resp 


Starred resp list.append(json.loads(next url resp.text)) 
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for i in starred resp list: 
for j in i: 
sr — j['html url'] 
starred repos.get(user name).append(sr) 


AIARA LE Z3 X 5 BT 12. B HRUPA, FECE WH IR IBS ER. TE 
将 之 前 作者 们 加 星 标的 资料 库 谎 加 到 一 个 字典 ， 我 们 稍 后 将 使 用 该 字典 。 

让 我 们 现在 调用 它 。 运 行 可 能 需要 几 分 钟 ， 具 体 取决 于 作者 们 加 标的 资料 库 数量 。 实 
际 上 ， 我 目 己 的 数据 超过 了 4,000 个 加 标的 资料 库 。 


for usr in list(set(my starred users)): 








print (usr) 

try: 

get starred by user (usr) 
except: 

print('failed for user', usr) 


上 述 代码 生成 图 10-12 的 输出 。 

请 注意 ， 在 调用 它 之 前 ， 我 将 已 加 星 标的 用 户 列 表 变 为 了 一 个 集合 。 我 及 现 了 一 些 重复 
的 用 户 ， 这 是 由 于 在 一 个 用 户 句 柄 下 对 多 个 资料 库 加 了 星 标 ， 所 以 将 列表 转化 为 集合 很 有 意 
义 ， 它 会 去 除 重 复 的 调用 。 

我 们 现在 需要 为 所 有 被 加 标的 资料 库 ， 构 建 一 个 特征 集 。 

repo vocab = [item for sl in list(starred repos.values()) for item in sl] 

接 下 来 ， 由 于 多 个 用 户 会 标注 同一 个 资料 库 ， 我 们 将 其 转换 为 一 个 集合 ， 以 删除 可 能 
存在 的 多 个 重复 。 

repo set = list(set(repo vocab)) 

让 我 们 看 看 这 产生 了 多 少 库 。 

len(repo vocab) 

上 面 的 代码 生成 了 图 10-13 的 输出 。 

我 加 标的 资料 库 已 经 超过 80 个 了 ， 而 所 有 相关 的 用 户 对 超过 12,000 个 唯一 的 资料 
库 加 过 星 标 。 你 可 以 想象 ， 如 果 我 们 按照 同样 的 方法 进一步 获取 相关 的 资料 库 “， 那 会 


有 多 少 。 


























(D 译 者 注 : 作者 介绍 的 数据 获取 方法 类 似 网 络 息 虫 ， 从 作者 上 自己 开始 ， 获 取 加 标的 库 ， 合 看 其 作者 ， 表 获取 放 
作者 加 标的 库 ， 如 此 往复 ， 可 以 获取 海量 数据 。 
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podopie 
twitter 
grangier 
bmtgoncalves 
bloomberg 
donnemartin 
cchi 


monkeylearn 
misterGF 
clips 
hangtwenty 
sandialabs 





图 10-12 图 10-13 


现在 ， 我 们 有 了 完整 的 特征 集 ， 或 者 说 资料 库 的 词汇 ， 我 们 对 于 每 位 用 户 和 每 个 资料 
库 的 组 合 创建 一 个 二 进 制 癌 量 ， 如 宋 该 用户 对 该 库 有 加 星 标 ， 那 么 为 1， 合 则 为 0。 


all usr vector = [] 





for k,v in starred repos.items(): 
usr vector - [] 
for url in repo set: 
if url in v: 
usr vector.extend([1]) 
else: 
usr vector.extend([0]) 
all usr vector.append(usr vector) 


我 们 刚刚 做 的 是 检查 每 位 用 户 ， 看 看 他 们 和 是否 为 词汇 集中 的 资料 库 打 过 星 标 。 如 宁 打 
过 ， 值 就 设置 为 1， 如 果 没 有 就 是 0。 

此 时 ， 我 们 有 12,378 个 项 目 (资料 库 )，79 位 用 户 ， 以 及 他 们 之 间 的 二 进 制 向 量 。 让 
我 们 将 这 些 放 入 一 个 DataErame。 行 索引 将 是 我 们 已 加 星 标的 用 户 句柄 ， 而 列 将 是 资料 
库 的 词汇 。 


df = pd.DataFrame(all usr vector, columns-repo set, 





index-starred repos.keys()) 
df 


上 述 代 码 生 成 图 10-14 的 输出 。 
接 下 来 ， 为 了 将 我 们 自己 与 其 他 用 户 进行 比较 ， 需 要 向 数据 框 中 添加 自己 的 那 行 。 


my repo comp = [] 

for i in df.columns: 
if i in my starred repos: 
my repo comp.append(1) 
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else: 


my repo comp.append(0) 


mrc — pd.Series(my repo comp).to frame('acombs').T 
mrc 


https://github.com 
EE https://github.com/wagerfield/parallax | https://github.com/agibsonsw/AndyPython VER es E 


mm« p  — hm — 
mem | —— hm  — 


monkeylearn 





图 10-14 
上 述 代 码 生 成 图 10-15 的 输出 。 


|  — |o|1|2|3|4|5 6|7|8|9 .. | 12368 12369 12370 | 12371 | 12372 | 12373 | 12374 | 12375 | 12376 | 12377 


图 10-15 








我 们 现在 需要 添加 适当 的 列 名 并 将 其 连接 到 其 他 数据 框 。 


mrc.columns = df.columns 
fdf = pd.concat([df, mrc]) 
fdf 
上 述 代 码 生 成 图 10-16 的 输出 。 
oa oo [oo 0 


ah S  — 


PMSI- 
AlignAlytics 





你 可 以 看 到 ， 在 图 10-16 的 截图 中 ， 我 也 被 添加 到 DataFrame. 
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现在 ,我 们 只 需要 计算 自己 和 其 他 用 户 之 间 的 相似 性 。 这 次 我 们 将 使 用 pearsonr K 
数 ， 它 需要 从 scipy 导入 。 


from scipy.stats import pearsonr 





sim score = {} 

for i in range(len(fdf)): 

SS = pearsonr(fdf.iloc[-1,:], fdf.iloc[i,:]) 
sim score.update((i: ss[0]]) 


Sf = pd.Series(sim score).to frame('similarity') 
sf 


上 述 代码 生成 图 10-17 的 输出 。 

我 们 了 刚刚 所 做 的 是 将 DataFrame 中 最 后 一 个 回 量 和 其 他 回 量 进行 比较 , 并 生成 中 心 化 
余弦 相似 度 (Pearson 相 关系 数 ) “。 一 些 值 是 NaN (不 是 数字 )， 因 为 他 们 没有 给 任何 项 目 
标记 星 号 ， 导 致 在 计算 中 除 以 了 和 零 。 

现在 让 我 们 对 这 些 值 进行 排序 ， 以 返回 最 相似 用 户 的 索引 编号。 

sf.sort values('similarity', ascending-False) 


上 述 代 码 生 成 图 10-18 的 输出 。 


[eios emery 
sm 
sem omes 
z [onrar |s [osos 
sm 


^ osse |^ [oxsuso 
s ossis es oriens 
efren ELE 
EET 





图 10-17 图 10-18 


这 些 是 最 相似 的 用 户 ， 因 此 ， 我 们 可 以 使 他 们 来 推荐 目 己 可 能 喜欢 的 资料 库 。 来 看 看 
这 些 用 户 ， 以 及 他 们 都 标记 了 哪些 我 们 可 能 可 欢 的 资料 库 。 





(D 译 者 注 : 根据 维基 百科 的 定义 ， 中 心 化 之 后 ， 同 量 间 的 余弦 相似 度 和 Pearson 相关 系数 是 等 价 的 。 
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你 可 以 忽略 具有 完美 相似 度 分 数 的 第 一 个 用 户 ， 这 是 我 们 日 己 。 按 照 列 表 找 下 去 ， 三 
个 最 接近 的 匹配 是 用 户 31、 用 户 5 和 用 户 71。 让 我 们 看 看 每 个 人 。 

fdf.index[31] 

上 述 代码 生成 图 10-19 的 输出 。 

让 我 们 来 看 看 这 是 谁 ， 以 及 他 们 的 资料 库 是 什么 。 

从 https://github.com/lmcinnes， 我 们 可 以 看 到 资料 库 属 于 谁 。 


这 是 hdbscan 的 作者 一 一 一 个 优秀 的 库 一 一 他 恰好 也 是 scikit-learn 和 matplotlib 
的 页 献 者 ， 如 图 10-20 所 示 。 











Leland Mcinnes 
Imcinnes 


e Tutte Institute for Mathematics an 


© Ottawa, Ontario, Canada 


'lmcinnes ' |© Joined on Apr 15, 2015 


10-19 图 10-20 


让 我 们 看 看 他 对 哪些 库 加 了 星 标 。 有 几 种 方法 来 做 到 这 点 : 我 们 可 以 使 用 目 己 的 代码 ， 
或 者 只 是 单 击 他 们 图 片 下 方 的 星星 。 让 我 们 两 者 郡 试 一 下 ， 只 是 比较 并 确保 一 切 都 是 对 的 。 

首先 通过 代码 : 

fdf.iloc[31,:][fdf.iloc[31,:]--1] 


Er ARE pA] 10-21 的 输出 。 


://github.com/glennqg/tga 
://github.com/iamaziz/PyDataset 
://github.com/lmcinnes/hdbscan 
://github.com/jupyter-incubator/kernel gateway bundlers 
://github.com/lmcinnes/hypergraph 
://github.com/tensorflow/skflow 
://github.com/cehorn/GLRM 




















://github.com/mwaskom/seaborn 
://github.com/jupyter-incubator/dashboards 
://github.com/scikit-learn/scikit-learn 
://github.com/stitchfix/d3-jupyter-tutorial 
://github.com/matplotlib/matplotlib 
://github.com/patricksnape/PyRPCA 

: lmcinnes, dtype: int64 


上 





10-21 
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我 们 看 到 13 个 被 标记 的 资料 库 。 让 我 们 将 其 和 GitHub 网 站 提供 的 那些 进行 比较 ， 如 
图 10-22 所 示 。 


ki Imcinnes (Leland MclInnes) / starred 


jupyter-incubator/dashboards 
Jupyter Dynamic Dashboards from Notebooks 
Starred on Mar 1 


jupyter-incubator/kernel gateway bundlers 
Converts a notebook to a kernel gateway microservice bundle for download 
arred on Mar 1 


Imcinnes/hdbscan 


A high performance implementation of HDBSCAN clustering. 


iamaziz/PyDataset 


Instant access to many datasets. 





10-22 
在 这 里 ， 我 们 可 以 看 到 它们 是 完全 相同 的 。 还 要 注意 ， 我 们 可 以 记录 自己 和 这 位 用 户 
都 标记 的 库 : 他 们 是 标记 为 Unstar ”的 那些 。 
PÆNE, RA 13 个 标 星 的 资料 库 ， 没 有 足够 的 数据 来 生成 推 荐 。 
下 一 位 相似 的 用 户 ， 实 际 上 是 一 个 朋友 和 前 同事 ，Charles Chi. 
fdf.index[5] 


上 述 代 码 生 成 图 10-23 的 输出 。 
他 的 GitHub 摘 述 文件 如 图 10-24 所 示 。 


e. 








Charles Chi 


cchi 


(9 Joined on Mar 8, 2013 





10-23 图 10-24 








由 于 自己 标记 为 star， 才 会 出 现 unstar 的 操作 选项 。 
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在 这 里 ， 我 们 看 到 了 他 加 过 星 标 的 资料 库 ， 如 图 10-25 所 示 。 


cchi (Charles Chi) / starred Follow 


Sort: Recently starred ~ All stars 
Your repositories 


shagunsodhani/papers-l-read Others' repositories 
Starred 16 days ago 
Filter by languages 

JavaScript 
rasbt/python-machine-learning-book C+ 
The "Python Machine Learning" book code repository and info resource Python 
Starred 17 days ago Java 

Scala 

R 


doximity/vital ao 


Design Framework 


HTML 


Jupyter Notebook 
Starred on May 2 


kjw0612/awesome-rnn 


Recurrent Neural Network - A curated list of resources dedicated to RNN 





10-25 
Charles 已 经 标记 了 27 个 库 ， 所 以 育 定 可 以 从 中 发 现 一 些 好 的 建议 。 
最 后 ， 让 我 们 来 看 看 第 三 个 最 相似 的 用 户 。 
fdf .index[71] 
这 将 产生 图 10-26 的 输出 。 
HF Artem Ruster 已 经 发 布 了 近 500 个 资料 库 ， 如 图 10-27 所 示 。 


Artem 
rushter 


() Russia 
D4 githubQrushter.com 
So httpz//rushter.com 


'rushter' | © Joined on Jan 4, 2013 





10-26 图 10-27 
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我 们 可 以 在 图 10-28 中 看 到 他 已 加 星 标的 资料 库 。 


s5 rushter (Artem ) / starred Follow 


Sort: Recently starred ~ All stars 
Your repositories 
google/deepboost Others' repositories 
Starred 11 days ago 


Filter by languages 


alex-sherman/deco 


Starred 15 days ago 


ujjwalkarn/DataSciencePython m 
common data analysis and machine learning tasks using python 


Starred 17 days ago 


tbenthompson/cppimport 
Import C++ files directly from Python! 


tarred 17 days ago 





图 10-28 
这 绝对 是 产生 推荐 内 容 的 沃土 。 让 我 们 现在 开始 ， 使 用 这 三 个 链接 产生 一 些 推荐 。 


首先 ， 我 们 需要 收集 他 们 已 经 加 星 标 ， 而 我 没有 加 星 标 的 链接 。 我 们 将 创建 一 个 
DataFrame， 放 入 我 和 三 位 相似 用 户 己 加 星 标 的 资料 库 。 


all recs = 
fdf.iloc[[31,5,71,79],:] [fdf.iloc[[31,5,71,79],:]==1] .fillna(0).T 


上 述 代 码 生 成 图 10-29 的 输出 。 


oer eco 
[TI 
eaonaapaanamapm — | bh p 
heec — | bh p 
hwe/mebcoeewowmeweam — | bh p | 
osain commansan — | bbh | 








osain comans —— | bbp | 
hegmebcowmmyzyersegeswm | bh p | 
Possono om ë p be p 
em/gmebcoWeaOeperdpekesom — bh p 
hweimebcoewmemamiwtons — | bh b | 





10-29 


ALL RCEGEOK I foe RS. AHE, Doe T MUBOBER. MARKEARRE 0。 让 我 
们 看 看 是 否 存 在 我 们 几 个 都 已 加 星 标的 资料 库 。 


all recs[(all recs--1).all(axis-1)] 
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此 代码 将 产生 图 10-30 的 输出 。 


可 以 看 到 ,不 出 意外 的 ， 我们 都 喜欢 scikit-learn。 让 我 们 看 看 其 他 几 位 标记 了 哪 
些 我 没 标 记 的 。 先 创建 一 个 排除 我 的 数据 框 ， 然 后 ， 碍 询 共 同 的 加 标 资料 库 。 


str recs tmp = all recs[all recs['acombs']==0] .copy () 
str recs = str recs tmp.iloc[:,:-1].copy() 


str recs 


上 述 代 码 生 成 图 10-31 的 输出 。 
limeinnes|cchi|rushter|acombs 





https://github.com/tensorflow/skflow 
https://github.com/scikit-learn/scikit-learn || Imcinnes | cchi [ruster 


图 10-30 图 10-31 











好 吧 ， 看 起 来 我 没有 错失 任何 超级 资料 库 。 让 我 们 看 看 是 否 存在 两 位 共同 加 标的 库 。 
为 了 找到 这 些 ， 我 们 只 是 将 行 的 内 容 加 和 。 


str recs[str recs.sum(axis-1)»1] 


上 述 代 码 生 成 图 10-32 的 输出 。 


imeinnes chi |rushter 
ee/etubcomasupyomecneiewehon [o l i | 
Pttpsvatinubcom/praknartosorawesome-courses | h i | 
apayemupeonnasptpatem eiassiteaon Jo h h | 
https://github.com/DrSkippy/Data-Science-45min-Intros 1 1 

Meslebcmwmumemkmne o — [| 


https://github.com/PredictionlO/PredictionlO 
https://github.com/mwaskom/seaborn 


https://github.com/okulbilisim/awesome-datascience 





p. m] 

NND UR 

o i 
https://github.com/ChristosChristofidis/awesome-deep-learning o hh | 

o t 

1 p 

o el 


图 10-32 





这 看 起 来 很 有 和 希望 ， 因 为 有 一 些 资料 库 ， 被 cchi 和 rushter 都 加 过 星 邱 。 看 看 库 的 名 称 ， 
似乎 有 许多 “很 梭 ”(awesome) 的 项 目 在 其 中 。 也 许 我 应 该 跳 过 推荐 引擎 ， 直 接 使 用 关键 
字 搜 索 “awesome”。 

到 目前 为 止 ,不 得 不 说 我 对 结果 印象 深刻 。 这 些 肯 定 是 我 感 兴 趣 的 库 ， 我 一 定 会 仔细 
看 看 。 
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现在 ， 我 们 使 用 协同 过 渡 生 成 了 推荐 ， 然 后 通过 和 聚集 执行 了 一 点 额外 的 过 滤 。 如 宋 钼 
更 进一步 ， 我 们 可 以 按照 每 个 被 推荐 项 目 收 到 的 星星 数 来 排序 。 你 可 以 通过 GitHub API 3E 
行 男 一 次 调用 ， 来 实现 这 一 点 。 有 一 个 并 点 会 所 供 此 类 信息 。 


为 了 改进 结果 ， 可 以 做 的 男 一 件 事情 是 瀛 加 基于 内 容 的 过 小 。 这 是 我 们 前 面 所 讨论 的 
混合 步骤。 我 们 需要 为 目 己 的 库 创 建 一 组 特征 ， 而 这 些 特征 可 以 表明 我 们 的 兴趣 。 一 种 方 
法 是 对 加 标 资 料 库 的 名 称 以 及 描述 进行 分 词 ， 来 创建 一 个 特征 集 。 


这 里 是 我 打 过 星 标 的 库 ， 如 图 10-33 所 示 。 











Sort: Most stars ~ All stars 


Your repositories 
d3/d3 * Unstar Others' repositories 
Bring data to life with SVG, Canvas and HTML. hl a * 


50,612 stars Filter by languages 


Python 
JavaScript 


tensorflow/tensorflow Jupyter Notebook 


*x Unstar 
Computation using data flow graphs for scalable machine learning C++ 


HTML 
CSS 
Objective-C 
。 OpenEdge ABL 
vinta/awesome-python xk Uneter 
A curated list of awesome Python frameworks, libraries, software and resources . i 
one 


kennethreitz/requests TETERE 
Python HTTP Requests for Humans "^ 


19,265 stars 


caesar0301 /awesome-public-datasets 





* Unstar 


图 10-33 





你 可 以 想象 ， 这 将 生成 一 组 单词 特征 ， 我 们 可 以 用 其 审查 基于 协同 过 滤 的 那些 推荐 。 
这 将 包括 很 多 词汇 ， 如 Python、Machine Learning 和 Data Science 等 。 这 将 确保 
与 我 们 不 太 相 似 的 用 户 仍 然 可 以 提供 基于 目 身 兴趣 的 推 存 。 它 也 会 减少 推荐 的 “意外 之 豆 ”， 
ee 例如 ， 有 可 能 茶 些 资料 库 不 同 于 当前 我 所 标 星 的 库 ， 然 而 我 对 它 其 实 

兴趣 。 这 当然 只 是 一 种 可 能 性 。 


从 数据 框 的 角度 看 , 基于 内 容 过 滤 的 步骤 会 是 什么 样子 ? 列 将 是 单词 特征 On 元 语法 )， 


行将 是 从 协同 过 滤 步 又 产生 而 来 的 资料 库 。 我 们 只 需 使 用 自己 的 库 ， 再 次 运行 相似 性 比较 
的 过 程 。 
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10.5 小 结 


在 本 章 中 ， 我 们 了 解 了 推 存 引 擎 。 我 们 学 习 了 当今 使 用 的 两 个 主要 类 型 的 系统 : 协同 
过 小 和 基于 内 容 的 过 小。 我 们 还 了 解 了 如 何 将 它们 一 起 使 用 并 形成 混合 系统 。 我 们 也 花 了 
一 些 时 间 讨 论 每 类 系统 的 利 紫 。 最 后 ， 我 们 学 习 了 如 何 使 用 GitHub API， 从 头 开 始 一 步 一 
步 地 构建 推荐 引擎 。 

我 布 望 你 使 用 本 重 中 的 指导 来 构建 目 己 的 推荐 引擎 ， 而 且 我 希望 你 能 找到 许多 对 你 有 
用 的 资源 。 我 知 志 我 找到 了 一 些 上 自己 肯定 会 使 用 的 东西 。 

在 构建 推荐 引擎 的 旅 和 泛 上 ， 在 使 用 本 书 所 介绍 的 全 部 机 占 学 习 技 术 的 旅途 上 ， 我 视 你 
好 运 。 机 融和 学 习 打 开 了 一 个 新 的 世界 ， 充 请 了 可 能 性 ， 未 来 它 将 影响 我 们 生活 中 的 几乎 每 
一 个 领域 ， 而 你 ， 已 经 迈 出 了 进入 这 个 新 世界 的 第 一 步 。 
































Python 机 器 学 习 
实践 指南 


机 器 学 习 正 在 迅速 成 为 数据 驱动 型 世界 的 一 个 必 备 模块 。 
许多 不 同 的 领域 ， 如 机 器 人 、 医 学 、 零 售 和 出 版 等 ， 都 需要 依 
赖 这 门 技术 。 通 过 阅读 本 书 ， 你 将 学 习 如 何 一步 步 构建 真实 的 
机 器 学 习 应 用 程序 。 - 





本 书 以 通俗 易 懂 ， 简 洁 明 了 的 方式 ， 教 你 如 何 使 用 机 器 学 p 
习 来 收集 、 分 析 并 操作 大 量 的 数据 。 通 过 易于 理解 的 项 目 ， 本 
书 讲解 如 何 处 理 各 种 类 型 的 数据 、 如 何以 及 何 时 应 用 不 同 的 机 
器 学 习 技 术 ， 包 括 监督 学 习 和 无 监督 学 习 。 本 书 中 的 每 个 项 目 - 
都 同时 提供 了 教学 和 实践 ， 你 将 学 习 如 何 使 用 聚 类 技术 来 必 现 
低 价 的 机 票 ， 以 及 如 何 使 用 绪 性 回归 找到 一 间 便 宜 的 公寓 。 


本 书 适合 的 读者 包括 了 解数 据 科 学 的 Python 程 序 员 、 数 
据 科 学 家 、 架 构 师 ， 以 及 想 要 构建 完整 的 、 基 于 Python 的 机 
器 学 习 系统 的 人 们 。 
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